Co to jest plik Robots.txt w domenie?

Jednym z największych błędów dla nowych właścicieli witryn nie jest przeglądanie ich pliku robots.txt. Więc co to jest i dlaczego tak ważne? Mamy twoje odpowiedzi.
Jeśli jesteś właścicielem witryny i zależy Ci na niejZdrowie SEO, powinieneś bardzo dobrze zapoznać się z plikiem robots.txt w swojej domenie. Wierzcie lub nie, to niepokojąco duża liczba osób, które szybko uruchamiają domenę, instalują szybką stronę WordPress i nigdy nie zawracają sobie głowy robieniem nic z plikiem robots.txt.
To jest niebezpieczne. Źle skonfigurowany plik robots.txt może faktycznie zniszczyć zdrowie Twojej witryny i zniszczyć wszelkie szanse na zwiększenie ruchu.
Co to jest plik Robots.txt?
The Robots.txt plik jest trafnie nazwany, ponieważ jest to w zasadzieplik zawierający listę dyrektyw dla robotów internetowych (takich jak roboty wyszukiwarek), w jaki sposób i w jaki sposób mogą one indeksować w Twojej witrynie. Jest to standard internetowy, a następnie witryny internetowe od 1994 r., A wszystkie główne roboty indeksujące stosują się do tego standardu.
Plik jest przechowywany w formacie tekstowym (z rozszerzeniem.rozszerzenie txt) w folderze głównym witryny. W rzeczywistości możesz wyświetlić plik robota.txt dowolnej witryny, wpisując domenę, po której następuje /robots.txt. Jeśli spróbujesz tego z groovyPost, zobaczysz przykład dobrze zorganizowanego pliku robot.txt.

Plik jest prosty, ale skuteczny. Ten przykładowy plik nie rozróżnia robotów. Polecenia są wydawane wszystkim robotom za pomocą Agent użytkownika: * dyrektywa. Oznacza to, że wszystkie następujące po nim polecenia dotyczą wszystkich robotów odwiedzających witrynę w celu jej zaindeksowania.
Określanie przeszukiwaczy sieci
Możesz także określić szczegółowe zasady dlaokreślone roboty indeksujące. Na przykład możesz zezwolić Googlebotowi (robotowi indeksującemu Google) na indeksowanie wszystkich artykułów w Twojej witrynie, ale możesz zabronić rosyjskiemu robotowi indeksującemu Yandex Bot indeksowania artykułów w Twojej witrynie, które zawierają dyskredytujące informacje o Rosji.
Istnieją setki robotów sieciowych, które przeszukują Internet w poszukiwaniu informacji o witrynach internetowych, ale tutaj wymieniono 10 najczęstszych powinieneś się martwić.
- Googlebot: Wyszukiwarka Google
- Bingbot: Wyszukiwarka Bing firmy Microsoft
- Slurp: Wyszukiwarka Yahoo
- DuckDuckBot: Wyszukiwarka DuckDuckGo
- Baiduspider: Chińska wyszukiwarka Baidu
- YandexBot: Rosyjska wyszukiwarka Yandex
- Exabot: Francuska wyszukiwarka Exalead
- Facebot: Indeksujący bot Facebooka
- ia_archiver: Robot indeksujący w sieci Alexa
- MJ12bot: Baza danych indeksowania dużych łączy
Biorąc przykładowy scenariusz powyżej, jeśli chceszaby zezwolić Googlebotowi na indeksowanie wszystkiego w Twojej witrynie, ale chciałem zablokować Yandexowi indeksowanie treści artykułów opartych na języku rosyjskim, dodajesz następujące wiersze do pliku robots.txt.
User-agent: googlebot
Disallow: Disallow: /wp-admin/
Disallow: /wp-login.php
User-agent: yandexbot
Disallow: Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /russia/
Jak widać, pierwsza sekcja blokuje tylkoGoogle od indeksowania strony logowania WordPress i stron administracyjnych. Druga sekcja blokuje Yandex przed tym samym, ale także z całego obszaru witryny, w którym opublikowałeś artykuły z treścią antyrosyjską.
To jest prosty przykład tego, jak możesz użyć Zakazać polecenie kontrolujące określone roboty indeksujące, które odwiedzają Twoją witrynę.
Inne komendy Robots.txt
Nie zezwalaj nie jest jedynym poleceniem, do którego masz dostęp w pliku robots.txt. Możesz także użyć dowolnego z innych poleceń, które określą, w jaki sposób robot może indeksować Twoją witrynę.
- Zakazać: Informuje klienta użytkownika, aby unikał indeksowania określonych adresów URL lub całych sekcji witryny.
- Dopuszczać: Umożliwia precyzyjne dostrojenie określonych stron lub podfolderów w witrynie, nawet jeśli mógłbyś zabronić dostępu do folderu nadrzędnego. Na przykład możesz zabronić: / about /, ale następnie zezwolić: / about / ryan /.
- Opóźnienie pełzania: Mówi to robotowi, aby poczekał xx liczbę sekund przed rozpoczęciem indeksowania treści witryny.
- Mapa strony: Podaj wyszukiwarkom (Google, Ask, Bing i Yahoo) lokalizację map witryn XML.
Pamiętaj, że boty to zrobią tylko słuchaj poleceń podanych podczas określania nazwy bota.
Częstym błędem popełnianym przez użytkowników jest nie zezwalanie na obszary takie jak / wp-admin / ze wszystkich botów, ale następnie określanie sekcji googlebot i wyłączanie innych obszarów (takich jak / about /).
Ponieważ boty wykonują tylko polecenia określone w ich sekcji, musisz odtworzyć wszystkie pozostałe polecenia określone dla wszystkich botów (używając * user-agent).
- Zakazać: Komenda używana do poinformowania klienta użytkownika, aby nie indeksował określonego adresu URL. Tylko jeden wiersz „Disallow:” jest dozwolony dla każdego adresu URL.
- Zezwalaj (dotyczy tylko Googlebota): Polecenie poinformowania Googlebota, że może uzyskać dostęp do strony lub podfolderu, nawet jeśli jego strona nadrzędna lub podfolder może być niedozwolona.
- Opóźnienie pełzania: Ile sekund przeszukiwacz powinien czekać przed załadowaniem i przeszukaniem zawartości strony. Pamiętaj, że Googlebot nie potwierdza tego polecenia, ale szybkość indeksowania można ustawić w Google Search Console.
- Mapa strony: Służy do wywoływania lokalizacji map witryn XML powiązanych z tym adresem URL. Uwaga: to polecenie jest obsługiwane tylko przez Google, Ask, Bing i Yahoo.
Pamiętaj, że plik robots.txt ma na celu pomóc legalnym botom (takim jak roboty wyszukiwarek) w skuteczniejszym indeksowaniu witryny.
Istnieje wiele nikczemnych robotówktóre indeksują Twoją witrynę w celu skrobania adresów e-mail lub kradzieży treści. Jeśli chcesz spróbować użyć pliku robots.txt, aby zablokować robotom indeksującym cokolwiek w Twojej witrynie, nie przejmuj się. Twórcy tych robotów zazwyczaj ignorują wszystko, co umieścisz w pliku robots.txt.
Dlaczego nic nie dopuszczasz?
Sprawienie, by wyszukiwarka Google indeksowała jak najwięcej treści wysokiej jakości w Twojej witrynie, jest głównym problemem większości właścicieli witryn.
Jednak Google wydaje tylko ograniczone indeksować budżet i szybkość indeksowania na poszczególnych stronach. Szybkość indeksowania to liczba żądań na sekundę wysyłanych przez Googlebota do Twojej witryny podczas zdarzenia indeksowania.
Ważniejszy jest budżet indeksowania, który jest takiwiele żądań Googlebota zaindeksuje Twoją witrynę w jednej sesji. Google „wydaje” swój budżet na indeksowanie, koncentrując się na obszarach Twojej witryny, które są bardzo popularne lub niedawno się zmieniły.
Nie jesteś ślepy na te informacje. Odwiedzając Narzędzia Google dla webmasterów, możesz zobaczyć, w jaki sposób robot obsługuje Twoją witrynę.

Jak widać, robot indeksujący utrzymuje jego aktywność w witrynie na stałym poziomie każdego dnia. Nie indeksuje wszystkich witryn, ale tylko te, które uważa za najważniejsze.
Po co pozostawić Googlebotowi podjęcie decyzjiważne w witrynie, kiedy możesz użyć pliku robots.txt, aby powiedzieć mu, jakie są najważniejsze strony? Zapobiegnie to marnowaniu czasu przez Googlebota na stronach o niskiej wartości w Twojej witrynie.
Optymalizacja budżetu indeksowania
Narzędzia Google dla webmasterów pozwalają również sprawdzić, czy Googlebot dobrze czyta plik robots.txt i czy występują jakieś błędy.

Pomoże to zweryfikować poprawność struktury pliku robots.txt.
Jakie strony należy zabronić od Googlebota? SEO Twojej witryny dobrze jest nie zezwalać na następujące kategorie stron.
- Duplikaty stron (np. Strony przyjazne drukarce)
- Dziękujemy stronom po zamówieniach opartych na formularzu
- Formularze zapytań o zamówienie lub informacje
- Strony kontaktowe
- Strony logowania
- Strony „sprzedaży” z magnesem ołowiowym
Nie ignoruj pliku Robots.txt
Największym błędem, jaki popełniają nowi właściciele witryn, jestnawet nie patrząc na plik robots.txt. Najgorsza sytuacja może być taka, że plik robots.txt faktycznie blokuje twoją witrynę lub obszary witryny w ogóle przed zaindeksowaniem.
Przejrzyj plik robots.txt i upewnij się, że jest zoptymalizowany. W ten sposób Google i inne ważne wyszukiwarki „widzą” wszystkie wspaniałe rzeczy, które oferujesz światu w swojej witrynie.
zostaw komentarz