Što je datoteka Robots.txt u domeni?
Jedna od najvećih pogrešaka za nove vlasnike web stranica nije promatranje datoteke robots.txt. Pa što je to uopće i zašto tako važno? Imamo vaše odgovore.
Ako imate web mjesto i brinete se o njegovoj web lokacijiSEO zdravlja, trebali biste se vrlo dobro upoznati s datotekom robots.txt na vašoj domeni. Vjerovali ili ne, to je uznemirujuće velik broj ljudi koji brzo pokrenu domenu, instaliraju brzu WordPress web stranicu i nikada se ne trude raditi bilo šta sa svojom robots.txt datotekom.
Ovo je opasno. Loše konfigurirana datoteka robots.txt može zapravo uništiti SEO zdravlje vašeg web mjesta i oštetiti sve šanse koje imate za rast vašeg prometa.
Što je datoteka Robots.txt?
To. Robots.txt datoteka je primjereno imenovana, jer je u osnovi adatoteka koja navodi direktive za web robote (poput robota pretraživača) o tome kako i što mogu indeksirati na vašem web mjestu. Ovo je web standard, za kojim slijede web stranice od 1994. godine, a svi glavni web alati za indeksiranje pridržavaju se standarda.
Datoteka je spremljena u tekstualnom formatu (sa.txt proširenje) u korijenskoj mapi vaše web stranice. U stvari, možete pregledati datoteku robot.txt bilo koje web stranice samo ako upišete domenu, a zatim /robots.txt. Ako to pokušate s groovyPost, vidjet ćete primjer dobro strukturirane datoteke robot.txt.
Datoteka je jednostavna, ali učinkovita. Ovaj primjer datoteke ne razlikuje robote. Naredbe se izdaju svim robotima pomoću Korisnički agent: * direktiva. To znači da se sve naredbe koje ga slijede primjenjuju na sve robote koji posjećuju stranicu kako bi je pretražili.
Određivanje Web pretraživača
Možete odrediti i posebna pravila zaodređene web indekse. Na primjer, možete dopustiti Googlebotu (Googleovom pretraživaču web stranica) da indeksira sve članke na vašoj web lokaciji, ali možda želite onemogućiti ruskom pretraživaču internetskog alata Yandex Bot da pretražuje članke na vašoj web lokaciji koji imaju omalovažavajuće podatke o Rusiji.
Postoji stotine web pretraživača koji pretražuju internet zbog informacija o web stranicama, ali 10 najčešćih zbog kojih biste trebali biti zabrinuti navedeni su ovdje.
- Googlebot: Google pretraživač
- Bingbot: Microsoftova pretraživačica Bing
- Srkati: Yahoo pretraživač
- DuckDuckBot: Tražilica DuckDuckGo
- Baiduspider: Kineska tražilica Baidu
- YandexBot: Ruska pretraživač Yandex
- Exabot: Francuska tražilica Exalead
- Facebot: Facebook-ov indeksni bot
- ia_archiver: Aksin web pretraživač Alexa
- MJ12bot: Velika baza podataka za indeksiranje veza
Ako želite, uzmite gornji primjer scenarijada biste Googleotu omogućili indeksiranje svega na vašoj web lokaciji, ali htjeli ste blokirati Yandex da indeksira vaš članak na ruskom članku, u datoteku robots.txt dodajte sljedeće redove.
User-agent: googlebot
Disallow: Disallow: /wp-admin/
Disallow: /wp-login.php
User-agent: yandexbot
Disallow: Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /russia/
Kao što vidite, prvi odjeljak blokiraGoogle je indeksirao stranicu za prijavu na WordPress i administrativne stranice. Drugi odjeljak blokira Yandex od istog, ali i sa čitavog područja vaše web stranice na kojem ste objavili članke sa antiruskim sadržajem.
Ovo je jednostavan primjer kako možete koristiti Onemogući naredba za kontrolu određenih web indeksa koji pretražuju vašu web stranicu.
Ostale naredbe Robots.txt
Disallow nije jedina naredba kojoj imate pristup u datoteci robots.txt. Možete koristiti i bilo koju drugu naredbu koja će usmjeriti kako robot može indeksirati vašu web lokaciju.
- Onemogući: Kaže korisničkom agentu da izbjegne indeksiranje određenih URL-ova ili cijelih odjeljaka vaše web lokacije.
- dopustiti: Omogućuje precizno prilagođavanje određenih stranica ili podmapa na vašoj web lokaciji, iako ste možda onemogućili roditeljsku mapu. Na primjer, možete onemogućiti: / about /, ali dopustiti: / about / ryan /.
- Indeksiranja kašnjenje: To upućuje ala za indeksiranje da pričeka xx broj sekundi prije nego što počne pretraživati i indeksirati sadržaj web lokacije.
- Mapa: Navedite tražilice (Google, pitajte, Bing i Yahoo) lokaciju vaših XML sitemapova.
Imajte na umu da botovi hoće samo preslušajte naredbe koje ste naveli kad odredite ime robota.
Česta greška koju ljudi čine je onemogućavanje područja poput / wp-admin / iz svih botova, ali zatim odredite odjeljak googlebot i samo zabranu ostalih područja (poput / about /).
Budući da botovi slijede samo naredbe koje ste naveli u njihovom odjeljku, morate ponovno pokrenuti sve one naredbe koje ste naveli za sve botove (koristeći * user-agent).
- Onemogući: Naredba koja se koristi korisničkom agentu da ne pretraži indeksiranje određenog URL-a. Za svaki je URL dopušten samo jedan redak "Disallow:".
- Dozvoli (primjenjivo samo za Googlebot): Naredba da se Googlebotu kaže da može pristupiti stranici ili podmapi iako njegova matična stranica ili podmapa možda nisu dopuštene.
- Indeksiranja kašnjenje: Koliko sekundi bi alat za indeksiranje trebao čekati prije utovara i pretraživanja sadržaja stranica. Imajte na umu da Googlebot ne priznaje ovu naredbu, ali stopa pretraživanja i indeksiranja mogu se postaviti na Google Search Console.
- Mapa: Koristi se za pozivanje lokacije XML sitemapa (e) povezanih s ovim URL-om. Napominjemo da ovu naredbu podržavaju samo Google, Pitaj, Bing i Yahoo.
Imajte na umu da je cilj robots.txt pomoći zakonitim botovima (poput botova pretraživača) što učinkovitije pretraživati vašu web lokaciju.
Tamo ima puno gadnih gusjenicakoji pretražuju vašu web lokaciju da bi radili stvari poput brisanja e-adresa ili ukrali vaš sadržaj. Ako želite isprobati datoteku robots.txt da biste blokirali one alate za indeksiranje išta na vašoj web lokaciji, ne smetajte. Kreatori tih alata za indeksiranje obično ignoriraju sve što ste unijeli u svoju datoteku robots.txt.
Zašto onemogućiti bilo što?
Navođenje Googleove tražilice da indeksira što više kvalitetnog sadržaja na vašoj web stranici osnovna je briga za većinu vlasnika web stranica.
Međutim, Google troši samo ograničeno pretraživati proračun i stopa puzanja na pojedinačnim mjestima. Stopa indeksiranja iznosi koliko zahtjeva u sekundi Googlebot podnese na vašu web lokaciju tijekom događaja pretraživanja.
Važniji je proračun za indeksiranje, a to je kakomnogo ukupnih zahtjeva koje će Googlebot podnijeti kako bi pretražio vašu web lokaciju u jednoj sesiji. Google "troši" proračun za indeksiranje usredotočujući se na područja vaše web stranice koja su vrlo popularna ili su se nedavno promijenila.
Nisi slijep za ove informacije. Ako posjetite Google alate za webmastere, možete vidjeti kako alat za indeksiranje rukuje s vašim web mjestima.
Kao što vidite, alat za indeksiranje svakodnevno održava aktivnost na vašoj web lokaciji. Ne indeksiraju se sve web lokacije, već samo one koje smatra najvažnijim.
Zašto to prepustiti Googlebotu da odluči što jeVažno na svojoj web lokaciji, kada pomoću datoteke robots.txt možete reći koje su najvažnije stranice? To će spriječiti Googlebot da troši vrijeme na stranicama male vrijednosti na vašoj web lokaciji.
Optimiziranje proračuna pretraživanja i indeksiranja
Google Alati za webmastere također vam omogućuju provjeru je li Googlebot dobro čita vašu datoteku robots.txt i postoje li pogreške.
Na taj ćete način provjeriti jeste li pravilno strukturirali datoteku robots.txt.
Koje stranice treba onemogućiti s Googlebota? Dobro je za vaše web mjesto SEO onemogućiti sljedeće kategorije stranica.
- Duplirane stranice (poput stranica prilagođenih pisaču)
- Zahvaljujemo stranicama koje slijede putem naloga
- Obrasci za narudžbu ili informacije
- Stranice za kontakt
- Stranice za prijavu
- Stranice "prodaje" vodećeg magneta
Nemojte zanemariti svoju datoteku Robots.txt
Najveća greška novih vlasnika web stranica jenikad ne gledajući njihovu datoteku robots.txt. Najgora situacija mogla bi biti da datoteka robots.txt zapravo blokira uopće ne pretraživanje vaše web lokacije ili područja vaše web lokacije.
Obavezno pregledajte datoteku robots.txt i provjerite je li optimizirana. Na ovaj način, Google i druge važne tražilice „vide“ sve fenomenalne stvari koje nudite svijetu pomoću vaše web stranice.
Ostavite komentar