Każda infrastruktura sieciowa czy drogowa, niezależnie od tego czy poruszają się po niej ludzie czy programy komputerowe, wymaga stworzenia określonej sygnalizacji. Na jej podstawie użytkownicy będą wiedzieć: jak i którędy się poruszać. Plik robots.txt można zatem porównać do prawidłowo oznakowanego węzła drogowego, który kieruje roboty sieciowe na pożądane w pozycjonowaniu obszary, poprzez blokowanie dostępu do wybranych zasobów naszej witryny.
Najprościej rzecz ujmując, plik robots.txt stanowi jeden z elementów Robots Exclusion Protocol, mechanizmu, który informuje automaty (roboty) sieciowe, czego mają nie robić na stronie internetowej podczas jej indeksowania. Utworzyć go można w najprostszym edytorze tekstowym, na przykład doskonale wszystkim znanym notatniku (Program Word się do tego nie nadaje!).
Przeszukując sieć i zbierając informacje na temat pliku robots.txt, jego istoty, struktury i znaczenia, napotkałem na wcale nie tak małą liczbę opinii, iż nie pełni on wcale tak ważnej roli, a niektórzy mówią nawet o tym, że jeśli chcemy aby cała nasza witryna była indeksowana, to tworzenie robots.txt nie jest konieczne.
Podczas tworzenia tego artykułu (jak i dwóch poprzednich) pochłonąłem ogromną ilość informacji na ten temat. Dlatego z pełną odpowiedzialnością mogę stwierdzić, że jest to opinia zupełnie nietrafiona.
Plik robots.txt odgrywa bardzo ważną rolę, gdyż dzięki niemu możemy modernizować naszą witrynę bez obaw, że elementy niegotowe jeszcze w 100%, nie zostaną zaindeksowane. Moją opinię na ten temat potwierdza nasz specjalista ds. pozycjonowania Przemysław Michałek, który zapytany o rolę pliku robots.txt odpowiedział:
„Pod kątem promocji witryny w Internecie plik robots.txt jest ważny. Istotne jednak aby był on prawidłowo skonfigurowany, gdyż nieumiejętne blokowanie serwisu lub jego fragmentów przed indeksowaniem może wykluczyć naszą stronę z wyścigu o najwyższe pozycje. Ponadto, zdarzały się przypadki kiedy brak pliku robots.txt został zinterpretowany jako błąd serwerowy, co może z kolei zaowocować błędnym indeksowaniem strony, lub nawet, w ekstremalnych przypadkach, usunięciem serwisu z wyników wyszukiwania. W związku z powyższym zalecamy utworzenie pliku robots.txt.”
Tezę o dużej roli pliku robots.txt potwierdza także Google w swoich oficjalnych wskazówkach dla webmasterów. Możemy się tam dowiedzieć, że „optymalnie ustawiony zapobiega przeciążeniom serwera związanym z wizytą robota, a także nie marnuje czasu robota na indeksowanie niepotrzebnych podstron/elementów strony”.
Wystarczy wpisać jej adres wyszukiwarkę i dodać „/robots.txt”. Google w swoich narzędziach dla webmasterów udostępnia narzędzie „Tester pliku robots.txt”, dzięki któremu możemy sprawdzić czy plik jest poprawnie stworzony i zapisany.
Tzw. „stara szkoła”, tworzenia robots.txt mówiła o tym, że blokujemy przed wejściem robotów wszystkie inne zasoby niż strony internetowe. Innymi słowy, nakazujemy robotowi tylko chodzenie po stronach html. Obecnie jednak, wyszukiwarka Google odczytuje cały wygląd strony. Dlatego też, robot powinien mieć dostęp do wszystkich zasobów witryny, również takich jak pliki stylów, skryptów czy obrazków. Powinniśmy w miarę możliwości unikać blokowania tych elementów, gdyż może to wpłynąć negatywnie na pozycjonowanie naszej witryny.
A zatem w tworzeniu dobrego pliku robots.txt kluczowe jest, aby doprowadzić do sytuacji, w której robotowi sieciowemu wyświetla się identyczna zawartość strony, jak każdemu użytkownikowi, który ją odwiedzi.
Tworząc plik robots.txt mamy do wykorzystania kilka poleceń (w fachowej terminologii: dyrektyw), które będą kierować ruchem robota sieciowego. Ich zapisywanie rozpoczynamy od polecenia „User-agent:” i po dwukropku wpisujemy nazwę robota sieciowego, lub też gwiazdkę „*”, która odnosi się do wszystkich automatów. Po poleceniu „User-Agent”, wpisujemy kolejne (nie należy nad każdym z nich powielać „User-Agent” – to polecenie wpisane raz „na górze” wystarczy).
Najczęściej stosowane polecenia to:
1. Allow – Pozwalające na indeksowanie konkretnego pliku, folderu lub też całego serwisu;
2. Disallow – Zabraniające indeksowania wskazanych zasobów naszej strony (przykłady poniżej);
3. Disallow: /directory/ (lub dowolny inny folder) – Zabraniające indeksowania wybranych folderów;
4. Disallow: /directory/file.html (lub dowolny inny plik) – Zabraniające indeksowania konkretnego pliku z wybranego folderu.
Ważne jest także aby pamiętać o zachowaniu prawidłowych odstępów pomiędzy poszczególnymi poleceniami w pliku tekstowym. Prawidłowo stworzony plik robots.txt należy zapisać na dysku naszego komputera, a następne przenieść do katalogu głównego naszej domeny. Roboty sieciowe będą w stanie odnaleźć plik robots.txt tylko wtedy, jeśli jego adres URL będzie prawidłowy, np.: http://www.domena.com/robots.txt.
Nazwa pliku tekstowego musi zawsze zostać zapisana po rozszerzeniu naszej witryny, bez żadnych innych elementów pomiędzy rozszerzeniem a robots.txt, dokładnie w taki sposób jak powyżej.
– nazwa pliku małymi literami,
– bez polskich znaków w nazwie pliku.
– w taki sam sposób jak wszystkie inne pliki zapisane na naszym serwerze FTP,
– wykorzystując do tego pliki .htaccess oraz .htpasswd.
Do treści pliku robots.txt mają dostęp wszyscy użytkownicy Internetu. Jego zabezpieczenie znacznie minimalizuje ryzyko jego edytowania przez spamerów i oszustów.
– błędem jest nadużywanie polecenia „Disallow” i traktowanie go jako jedynego sposobu na blokadę zawartości przed indeksowaniem,
– roboty sieciowe nie zaindeksują zawartości samej podstrony ale mogą zaindeksować zablokowane w robots.txt adresy URL, jeżeli natrafią na nie w innych miejscach sieci – w rezultacie adresy te mogą wciąż wyświetlać się w wynikach wyszukiwania,
– blokując podstronę, blokujemy także linki do niej przychodzące, przez co tracimy możliwość przekazywania wartości danego linku.
Reasumując, plik robots.txt odgrywa ważną rolę w procesie pozycjonowania strony w wyszukiwarkach internetowych. Jego samodzielne opracowanie wydaje się nie być szczególnie trudne, jednak optymalizacja pliku tekstowego, to czynność, która wymaga wiedzy oraz doświadczenia. Aby nie popełnić błędów, które później trudno będzie odkręcić, warto zaufać w tej kwestii profesjonalistom.
Sprawdź w 90 sekund, jak Twoja strona radzi sobie w sieci!
Pod lupę bierzemy aż 70 różnych parametrów.
Odbieraj regularną dawkę wiedzy i nowości ze świata digital marketingu!
Zero spamu, tylko konkrety!
Na dobry start
proponujemy Ci bezpłatnie: