6 najczęstszych problemów z plikiem Robots.txt i sposoby ich rozwiązywania

Odkryj najczęstsze problemy z plikiem robots.txt, ich wpływ na Twoją witrynę i obecność w wyszukiwarkach oraz dowiedz się, jak je naprawić. Robots.txt to przydatne i stosunkowo potężne narzędzie do instruowania robotów wyszukiwarek, w jaki sposób mają indeksować Twoją witrynę. Nie jest wszechmocny ( według własnych słów Google „nie jest to mechanizm, który pozwala trzymać stronę internetową poza Google”), ale może pomóc zapobiec przeciążeniu witryny lub serwera przez żądania robota.

Jeśli masz tę blokadę indeksowania w swojej witrynie, musisz mieć pewność, że jest ona używana prawidłowo. Jest to szczególnie ważne, jeśli używasz dynamicznych adresów URL lub innych metod, które generują teoretycznie nieskończoną liczbę stron. W tym przewodniku przyjrzymy się niektórym z najczęstszych problemów z plikiem robots.txt, wpływowi, jaki mogą one mieć na Twoją witrynę i Twoją obecność w wyszukiwarkach, oraz sposobom ich rozwiązania, jeśli uważasz, że wystąpiły. Ale najpierw rzućmy okiem na robots.txt i jego alternatywy.

 

Co to jest plik Robots.txt?

Robots.txt używa formatu zwykłego tekstu i jest umieszczany w katalogu głównym Twojej witryny. Musi znajdować się w najwyższym katalogu Twojej witryny; jeśli umieścisz go w podkatalogu, wyszukiwarki po prostu go zignorują. Pomimo swojej ogromnej mocy robots.txt jest często stosunkowo prostym dokumentem, a podstawowy plik robots.txt można utworzyć w ciągu kilku sekund za pomocą edytora takiego jak Notatnik .

Istnieją inne sposoby osiągnięcia tych samych celów, do których zwykle służy plik robots.txt. Poszczególne strony mogą zawierać metatag robots w samym kodzie strony. Możesz także użyć nagłówka HTTP X-Robots-Tag, aby wpłynąć na sposób (i czy) wyświetlanie treści w wynikach wyszukiwania.

Co może zrobić robots.txt?

Robots.txt może osiągnąć różne wyniki w zakresie różnych typów treści:

Strony internetowe mogą być blokowane przed indeksowaniem.

Mogą nadal pojawiać się w wynikach wyszukiwania, ale nie będą miały opisu tekstowego. Treści inne niż HTML na stronie również nie będą indeksowane.

Pliki multimedialne mogą być blokowane przed pojawianiem się w wynikach wyszukiwania Google. Obejmuje to obrazy, wideo i pliki audio. Jeśli plik jest publiczny, nadal będzie „istnieć” online i będzie można go przeglądać i łączyć, ale ta prywatna zawartość nie będzie wyświetlana w wynikach wyszukiwania Google.

Pliki zasobów, takie jak nieważne skrypty zewnętrzne, mogą być blokowane. Oznacza to jednak, że jeśli Google zaindeksuje stronę, która wymaga załadowania tego zasobu, robot Googlebot „zobaczy” wersję strony tak, jakby ten zasób nie istniał, co może mieć wpływ na indeksowanie.

 

Nie można użyć pliku robots.txt do całkowitego zablokowania wyświetlania strony internetowej w wynikach wyszukiwania Google. Aby to osiągnąć, musisz użyć alternatywnej metody, takiej jak dodanie metatagu noindex do nagłówka strony.

Jak niebezpieczne są błędy w pliku Robots.txt?

Błąd w pliku robots.txt może mieć niezamierzone konsekwencje, ale często to nie koniec świata. Dobrą wiadomością jest to, że naprawiając plik robots.txt, możesz szybko i (zazwyczaj) w pełni odzyskać wszelkie błędy.

Wskazówki Google dla twórców stron internetowych mówią o błędach w pliku robots.txt:

Przeszukiwacze internetowe są na ogół bardzo elastyczne i zazwyczaj nie dadzą się zwieść drobnym błędom w pliku robots.txt. Ogólnie rzecz biorąc, najgorsze, co może się zdarzyć, to zignorowanie niepoprawnych [lub] nieobsługiwanych dyrektyw.

Pamiętaj jednak, że Google nie potrafi czytać w myślach podczas interpretacji pliku robots.txt; musimy zinterpretować pobrany plik robots.txt. To powiedziawszy, jeśli zdajesz sobie sprawę z problemów w pliku robots.txt, zazwyczaj można je łatwo naprawić”.

6 typowych błędów w pliku Robots.txt

  1. txt nie znajduje się w katalogu głównym.
  2. Słabe wykorzystanie symboli wieloznacznych.
  3. Noindex w pliku Robots.txt.
  4. Zablokowane skrypty i arkusze stylów.
  5. Brak adresu URL mapy witryny.
  6. Dostęp do witryn deweloperskich.

Jeśli Twoja witryna zachowuje się dziwnie w wynikach wyszukiwania, plik robots.txt jest dobrym miejscem do szukania wszelkich błędów, błędów składniowych i nadmiernych reguł. Przyjrzyjmy się bliżej każdemu z powyższych błędów i zobaczmy, jak upewnić się, że masz prawidłowy plik robots.txt.

1. Robots.txt nie znajduje się w katalogu głównym

Roboty wyszukiwania mogą wykryć plik tylko wtedy, gdy znajduje się on w folderze głównym. Dlatego w adresie URL pliku robots.txt powinien znajdować się tylko ukośnik między domeną .com (lub jej odpowiednikiem) witryny a nazwą pliku „robots.txt”. Jeśli znajduje się tam podfolder, plik robots.txt prawdopodobnie nie jest widoczny dla robotów wyszukiwania, a witryna prawdopodobnie zachowuje się tak, jakby w ogóle nie było pliku robots.txt.

Aby rozwiązać ten problem, przenieś plik robots.txt do katalogu głównego. Warto zauważyć, że będzie to wymagało dostępu roota do swojego serwera. Niektóre systemy zarządzania treścią domyślnie przesyłają pliki do podkatalogu „media” (lub podobnego), więc może być konieczne obejście tego, aby umieścić plik robots.txt we właściwym miejscu.

2. Słabe wykorzystanie symboli wieloznacznych

Robots.txt obsługuje dwa znaki wieloznaczne:

  • Gwiazdka * , która reprezentuje wszystkie przypadki prawidłowego znaku, np. Jokera w talii kart.
  • Znak dolara $ , który oznacza koniec adresu URL, umożliwiając zastosowanie reguł tylko do końcowej części adresu URL, na przykład rozszerzenia typu pliku.

Rozsądne jest przyjęcie minimalistycznego podejścia do używania symboli wieloznacznych, ponieważ mogą one nakładać ograniczenia na znacznie szerszą część witryny. Stosunkowo łatwo jest też zablokować robotowi dostęp z całej witryny za pomocą źle umieszczonej gwiazdki. Aby rozwiązać problem z symbolem wieloznacznym, musisz zlokalizować nieprawidłowy symbol wieloznaczny i przenieść go lub usunąć, aby plik robots.txt działał zgodnie z przeznaczeniem.

 

3. Noindex w pliku Robots.txt

Ten jest bardziej powszechny w witrynach, które mają więcej niż kilka lat. Google przestało przestrzegać zasad noindex w plikach robots.txt od 1 września 2019 r. Jeśli Twój plik robots.txt został utworzony przed tą datą lub zawiera instrukcje noindex, prawdopodobnie zobaczysz te strony zindeksowane w wynikach wyszukiwania Google. Rozwiązaniem tego problemu jest wdrożenie alternatywnej metody „noindex”.

Jedną z opcji jest metatag robots, który możesz dodać do nagłówka dowolnej strony internetowej, której indeksowanie przez Google chcesz uniemożliwić.

4. Zablokowane skrypty i arkusze stylów

Logiczne może wydawać się zablokowanie dostępu robota do zewnętrznych skryptów JavaScript i kaskadowych arkuszy stylów (CSS). Pamiętaj jednak, że Googlebot potrzebuje dostępu do plików CSS i JS, aby poprawnie „zobaczyć” Twoje strony HTML i PHP. Jeśli Twoje strony dziwnie zachowują się w wynikach wyszukiwania Google lub wygląda na to, że Google nie widzi ich poprawnie, sprawdź, czy nie blokujesz dostępu robota do wymaganych plików zewnętrznych.

Prostym rozwiązaniem tego problemu jest usunięcie z pliku robots.txt wiersza, który blokuje dostęp. Lub, jeśli masz jakieś pliki, które musisz zablokować, wstaw wyjątek, który przywraca dostęp do niezbędnych CSS i JavaScript.

 

5. Brak adresu URL mapy witryny

Tu chodzi bardziej o SEO niż o cokolwiek innego. Adres URL mapy witryny możesz umieścić w pliku robots.txt. Ponieważ jest to pierwsze miejsce, w którym Googlebot przegląda Twoją witrynę, daje to robotowi przewagę w poznawaniu struktury i głównych stron Twojej witryny.

Chociaż nie jest to całkowity błąd, ponieważ pominięcie mapy witryny nie powinno negatywnie wpłynąć na rzeczywistą podstawową funkcjonalność i wygląd Twojej witryny w wynikach wyszukiwania, nadal warto dodać adres URL mapy witryny do pliku robots.txt, jeśli chcesz, aby Twoje wysiłki SEO były lepsze.

 

6. Dostęp do witryn deweloperskich

Blokowanie robotów indeksujących z Twojej aktywnej witryny to nie-nie, ale pozwala im to na indeksowanie Twoich stron, które są jeszcze w fazie rozwoju. Najlepszą praktyką jest dodanie instrukcji zakazu do pliku robots.txt witryny w budowie, aby opinia publiczna nie widziała jej, dopóki nie zostanie ukończona. Równie ważne jest, aby usunąć instrukcję disallow po uruchomieniu ukończonej witryny.

Zapominanie o usunięciu tego wiersza z pliku robots.txt jest jednym z najczęstszych błędów twórców stron internetowych i może uniemożliwić prawidłowe przeszukiwanie i indeksowanie całej witryny. Jeśli Twoja witryna programistyczna wydaje się otrzymywać rzeczywisty ruch lub ostatnio uruchomiona witryna nie działa dobrze w wynikach wyszukiwania, poszukaj uniwersalnej reguły zakazu obsługi klienta użytkownika w pliku robots.txt: Jeśli zobaczysz to, kiedy powinieneś t (lub nie wyświetlaj go, gdy trzeba), wprowadź niezbędne zmiany w pliku robots.txt i sprawdź, czy wygląd witryny w wyszukiwarce jest odpowiednio aktualizowany.

User-Agent: *

Disallow: /

 

Jak naprawić błąd w pliku Robots.txt?

Jeśli błąd w pliku robots.txt ma niepożądany wpływ na wygląd Twojej witryny w wynikach wyszukiwania, najważniejszym pierwszym krokiem jest poprawienie pliku robots.txt i sprawdzenie, czy nowe reguły przynoszą pożądany efekt. Niektóre narzędzia do indeksowania SEO mogą w tym pomóc, więc nie musisz czekać, aż wyszukiwarki ponownie zaindeksują Twoją witrynę. Jeśli masz pewność, że plik robots.txt działa zgodnie z oczekiwaniami, możesz jak najszybciej postarać się o ponowne zindeksowanie witryny.

Pomocne mogą być platformy takie jak Google Search Console i Bing Webmaster Tools . Prześlij zaktualizowaną mapę witryny i poproś o ponowne zindeksowanie wszelkich stron, które zostały niewłaściwie usunięte z listy. Niestety, jesteś kaprysem Googlebota – nie ma gwarancji, jak długo może potrwać, zanim brakujące strony pojawią się ponownie w indeksie wyszukiwania Google.

Wszystko, co możesz zrobić, to podjąć odpowiednie działania, aby maksymalnie skrócić ten czas i sprawdzać, aż poprawiony plik robots.txt zostanie zaimplementowany przez Googlebota.

 

Końcowe przemyślenia

W przypadku błędów w pliku robots.txt zdecydowanie lepiej zapobiegać niż leczyć. W przypadku dużych witryn generujących przychody, zabłąkany symbol wieloznaczny, który usunie całą witrynę z Google, może mieć natychmiastowy wpływ na zarobki. Edycje w pliku robots.txt powinny być wprowadzane ostrożnie przez doświadczonych programistów, dokładnie sprawdzane i – w stosownych przypadkach – podlegać drugiej opinii.

Jeśli to możliwe, przetestuj w edytorze piaskownicy przed opublikowaniem na żywo na serwerze w świecie rzeczywistym, aby uniknąć nieumyślnego tworzenia problemów z dostępnością. Pamiętaj, że gdy wydarzy się najgorsze, ważne jest, aby nie wpadać w panikę. Zdiagnozuj problem, dokonaj niezbędnych napraw pliku robots.txt i ponownie prześlij mapę witryny do nowego indeksowania. Miejmy nadzieję, że Twoje miejsce w rankingach wyszukiwania zostanie przywrócone w ciągu kilku dni.