06:10 min

Sunrise System 13.09.2016

Robots.txt – plik z instrukcjami dla robotów sieciowych

Spis treści:

Czy optymalne stworzenie pliku robots.txt jest ważne dla mojej witryny?
Jak sprawdzić czy nasza witryna w ogóle posiada plik robots.txt?
- Jak stworzyć dobry plik robots.txt
O czym jeszcze należy pamiętać w przypadku robots.txt?

Każda infrastruktura sieciowa czy drogowa, niezależnie od tego czy poruszają się po niej ludzie czy programy komputerowe, wymaga stworzenia określonej sygnalizacji. Na jej podstawie użytkownicy będą wiedzieć: jak i którędy się poruszać. Plik robots.txt można zatem porównać do prawidłowo oznakowanego węzła drogowego, który kieruje roboty sieciowe na pożądane w pozycjonowaniu obszary, poprzez blokowanie dostępu do wybranych zasobów naszej witryny.

Najprościej rzecz ujmując, plik robots.txt stanowi jeden z elementów Robots Exclusion Protocol, mechanizmu, który informuje automaty (roboty) sieciowe, czego mają nie robić na stronie internetowej podczas jej indeksowania. Utworzyć go można w najprostszym edytorze tekstowym, na przykład doskonale wszystkim znanym notatniku (Program Word się do tego nie nadaje!).

Czy optymalne stworzenie pliku robots.txt jest ważne dla mojej witryny?

Przeszukując sieć i zbierając informacje na temat pliku robots.txt, jego istoty, struktury i znaczenia, napotkałem na wcale nie tak małą liczbę opinii, iż nie pełni on wcale tak ważnej roli, a niektórzy mówią nawet o tym, że jeśli chcemy aby cała nasza witryna była indeksowana, to tworzenie robots.txt nie jest konieczne.

Podczas tworzenia tego artykułu (jak i dwóch poprzednich) pochłonąłem ogromną ilość informacji na ten temat. Dlatego z pełną odpowiedzialnością mogę stwierdzić, że jest to opinia zupełnie nietrafiona.

Plik robots.txt odgrywa bardzo ważną rolę, gdyż dzięki niemu możemy modernizować naszą witrynę bez obaw, że elementy niegotowe jeszcze w 100%, nie zostaną zaindeksowane. Moją opinię na ten temat potwierdza nasz specjalista ds. pozycjonowania Przemysław Michałek, który zapytany o rolę pliku robots.txt odpowiedział:

„Pod kątem promocji witryny w Internecie plik robots.txt jest ważny. Istotne jednak aby był on prawidłowo skonfigurowany, gdyż nieumiejętne blokowanie serwisu lub jego fragmentów przed indeksowaniem może wykluczyć naszą stronę z wyścigu o najwyższe pozycje. Ponadto, zdarzały się przypadki kiedy brak pliku robots.txt został zinterpretowany jako błąd serwerowy, co może z kolei zaowocować błędnym indeksowaniem strony, lub nawet, w ekstremalnych przypadkach, usunięciem serwisu z wyników wyszukiwania. W związku z powyższym zalecamy utworzenie pliku robots.txt.”

Tezę o dużej roli pliku robots.txt potwierdza także Google w swoich oficjalnych wskazówkach dla webmasterów. Możemy się tam dowiedzieć, że „optymalnie ustawiony zapobiega przeciążeniom serwera związanym z wizytą robota, a także nie marnuje czasu robota na indeksowanie niepotrzebnych podstron/elementów strony”.

Jak sprawdzić czy nasza witryna w ogóle posiada plik robots.txt?

Wystarczy wpisać jej adres wyszukiwarkę i dodać „/robots.txt”. Google w swoich narzędziach dla webmasterów udostępnia narzędzie „Tester pliku robots.txt”, dzięki któremu możemy sprawdzić czy plik jest poprawnie stworzony i zapisany.

Jak stworzyć dobry plik robots.txt

Tzw. „stara szkoła”, tworzenia robots.txt mówiła o tym, że blokujemy przed wejściem robotów wszystkie inne zasoby niż strony internetowe. Innymi słowy, nakazujemy robotowi tylko chodzenie po stronach html. Obecnie jednak, wyszukiwarka Google odczytuje cały wygląd strony. Dlatego też, robot powinien mieć dostęp do wszystkich zasobów witryny, również takich jak pliki stylów, skryptów czy obrazków. Powinniśmy w miarę możliwości unikać blokowania tych elementów, gdyż może to wpłynąć negatywnie na pozycjonowanie naszej witryny.

A zatem w tworzeniu dobrego pliku robots.txt kluczowe jest, aby doprowadzić do sytuacji, w której robotowi sieciowemu wyświetla się identyczna zawartość strony, jak każdemu użytkownikowi, który ją odwiedzi.

Tworząc plik robots.txt mamy do wykorzystania kilka poleceń (w fachowej terminologii: dyrektyw), które będą kierować ruchem robota sieciowego. Ich zapisywanie rozpoczynamy od polecenia „User-agent:” i po dwukropku wpisujemy nazwę robota sieciowego, lub też gwiazdkę „*”, która odnosi się do wszystkich automatów. Po poleceniu „User-Agent”, wpisujemy kolejne (nie należy nad każdym z nich powielać „User-Agent” – to polecenie wpisane raz „na górze” wystarczy).

Najczęściej stosowane polecenia to:

1. Allow – Pozwalające na indeksowanie konkretnego pliku, folderu lub też całego serwisu;

2. Disallow – Zabraniające indeksowania wskazanych zasobów naszej strony (przykłady poniżej);

3. Disallow: /directory/ (lub dowolny inny folder) – Zabraniające indeksowania wybranych folderów;

4. Disallow: /directory/file.html (lub dowolny inny plik) – Zabraniające indeksowania konkretnego pliku z wybranego folderu.

Ważne jest także aby pamiętać o zachowaniu prawidłowych odstępów pomiędzy poszczególnymi poleceniami w pliku tekstowym. Prawidłowo stworzony plik robots.txt należy zapisać na dysku naszego komputera, a następne przenieść do katalogu głównego naszej domeny. Roboty sieciowe będą w stanie odnaleźć plik robots.txt tylko wtedy, jeśli jego adres URL będzie prawidłowy, np.: http://www.domena.com/robots.txt.

Nazwa pliku tekstowego musi zawsze zostać zapisana po rozszerzeniu naszej witryny, bez żadnych innych elementów pomiędzy rozszerzeniem a robots.txt, dokładnie w taki sposób jak powyżej.

O czym jeszcze należy pamiętać w przypadku robots.txt?

1. Prawidłowe umieszczenie pliku w katalogu głównym naszej domeny:

– nazwa pliku małymi literami,

– bez polskich znaków w nazwie pliku.

2. Odpowiednie zabezpieczenie pliku:

– w taki sam sposób jak wszystkie inne pliki zapisane na naszym serwerze FTP,

– wykorzystując do tego pliki .htaccess oraz .htpasswd.

Do treści pliku robots.txt mają dostęp wszyscy użytkownicy Internetu. Jego zabezpieczenie znacznie minimalizuje ryzyko jego edytowania przez spamerów i oszustów.

3. Nie traktować robots.txt jako sposobu na blokowanie witryny przed indeksowaniem:

– błędem jest nadużywanie polecenia „Disallow” i traktowanie go jako jedynego sposobu na blokadę zawartości przed indeksowaniem,

– roboty sieciowe nie zaindeksują zawartości samej podstrony ale mogą zaindeksować zablokowane w robots.txt adresy URL, jeżeli natrafią na nie w innych miejscach sieci – w rezultacie adresy te mogą wciąż wyświetlać się w wynikach wyszukiwania,

– blokując podstronę, blokujemy także linki do niej przychodzące, przez co tracimy możliwość przekazywania wartości danego linku.

Reasumując, plik robots.txt odgrywa ważną rolę w procesie pozycjonowania strony w wyszukiwarkach internetowych. Jego samodzielne opracowanie wydaje się nie być szczególnie trudne, jednak optymalizacja pliku tekstowego, to czynność, która wymaga wiedzy oraz doświadczenia. Aby nie popełnić błędów, które później trudno będzie odkręcić, warto zaufać w tej kwestii profesjonalistom.

‹›×

Udostępnij:

Ocena artykułu:

Bezpłatny audyt SEO

Sprawdź w 90 sekund, jak Twoja strona radzi sobie w sieci!
Pod lupę bierzemy aż 70 różnych parametrów.

Bezpłatne kursy digital marketingu – online!

Sprawdź

Efektywna firma w necie – kanał You Tube

Wskazówki, rozmowy, inspiracje

Oglądaj na YouTube!

Zapisz się do newslettera

Odbieraj regularną dawkę wiedzy i nowości ze świata digital marketingu!

Zero spamu, tylko konkrety!

Zadaj pytanie ekspertowi

Dowiedz się jak być lepiej widocznym w sieci

Bezpłatna wycena Bezpłatny audyt SEO

Udostępnij:

Czytaj także

02:00 min 13.03.2017

Atrybut hreflang a promocja za granicą

Prawidłowa implementacja atrybutu hreflang ma duże znaczenie dla międzynarodowej strategii SEO. Wskazuje bowiem robotom wyszukiwarek, którą wersję językową strony należy wyświetlić użytkownikowi jako prawidłową, w zależności od tego, w jakim kraju się znajduje. Jednak często podczas wdrażania zmian pojawiają się błędy. Przeprowadzone niedawno badania naświetlają ogromną skalę tego problemu. Czytaj więcej

Jak stworzyć stronę „O nas”, która nie będzie nudna?

05:15 min 09.05.2017

Jak stworzyć stronę „O nas”, która nie będzie nudna?

Strona internetowa każdej firmy pełni funkcję jej swoistej wizytówki oraz w znacznym stopniu stanowi wsparcie prowadzonych przez nią działań marketingowych, również związanych z pozycjonowaniem. Właśnie dlatego tak ważne jest poświęcenie jej wystarczającej ilości uwagi – bardzo często na jej podstawie firma jest oceniana przez Klientów. W kontekście strony internetowej jako całości istotna okazuje się zakładka „O nas”, którą wbrew pozorom czyta wielu internautów. Dzisiaj podpowiemy, na co zwrócić uwagę przy jej tworzeniu. Czytaj więcej

Fresh Crawl i Deep Crawl – czym są i dlaczego są ważne

05:50 min 11.08.2016

Fresh Crawl i Deep Crawl – czym są i dlaczego są ważne

Jak wspomniałem w poprzedniej części cyklu o Googlebocie, robot sieciowy bywa nazywany również crawlerem (z ang. crawl – pełzać). Pomimo, iż pełzanie większości z nas kojarzy się z uległością, w tym wypadku to my musimy dostosowywać się do działań Googlebotów (pełzaczy), które na naszej stronie internetowej (prawdopodobnie) regularnie przeprowadzają fresh crawl i deep/main crawl. W tym artykule dowiecie się więcej o obu rodzajach „pełzania” wykonywanych przez roboty sieciowe. Czytaj więcej

Polecane

20:00 min 28.09.2023

Co to jest SEO?

Optymalizacja strony pod kątem SEO to proces długofalowy. Wymaga umieszczenia każdej nowej treści w odpowiednim miejscu struktury. Jak wesprzeć proces pozycjonowania? Czytaj więcej

15:00 min 28.09.2023

Samodzielne pozycjonowanie strony

Skuteczne pozycjonowanie to także działania off-site, czyli takie, które wykonywane są poza samą stroną internetową. Czytaj więcej