Mi a domainben a Robots.txt fájl?

Az új webhelyek tulajdonosai számára az egyik legnagyobb hiba az, hogy nem vizsgálják meg a robots.txt fájlt. Szóval mi ez egyébként, és miért olyan fontos? Megvan a válaszod.

Ha egy webhelyed van, és érdekli a webhelyétA SEO-állapot szempontjából nagyon jól ismerje meg magát a domain robots.txt fájljával. Hidd el vagy sem, ezek zavaróan nagy számú ember, aki gyorsan elindít egy domaint, telepít egy gyors WordPress webhelyet, és soha nem zavarja semmit a robots.txt fájllal.

Ez veszélyes. A rosszul konfigurált robots.txt fájl valójában tönkreteheti webhelye SEO állapotát, és károsíthatja a forgalom növekedésével kapcsolatos esélyeit.

Mi az a Robots.txt fájl?

A Robots.txt a fájlt helyesen nevezték el, mert lényegében afájl, amely felsorolja az internetes robotok (például a keresőmotorok robotjai) irányelveit arról, hogy miként és mit tudnak feltérképezni az Ön webhelyén. Ez egy webes szabvány, amelyet 1994 óta követnek a weboldalak, és az összes nagyobb webrobot betartja a szabványt.

A fájlt szöveges formátumban tárolja (a.txt kiterjesztés) a webhely gyökérmappájában. Valójában bármilyen weboldal robot.txt fájlt megnézhet, csak a /robots.txt követő domain beírásával. Ha ezt a groovyPost programmal próbálja meg, akkor lát egy példát egy jól strukturált robot.txt fájlra.

A fájl egyszerű, de hatékony. Ez a példafájl nem tesz különbséget a robotok között. A parancsokat az összes robotnak a Felhasználói ügynök: * irányelv. Ez azt jelenti, hogy az azt követő összes parancs azokra a robotokra vonatkozik, amelyek a webhelyet felkeresik és feltérképezik.

A webrobotok meghatározása

Megadhat konkrét szabályokat aspeciális webrobotok. Megengedheti például, hogy a Googlebot (a Google internetes bejárója) feltérképezzék az összes cikkét a webhelyén, de érdemes lehet megakadályozni az Yandex Bot orosz internetes bejárót a webhelyén olyan cikkeket feltérképezni, amelyek oroszországi információt rontanak.

Több száz internetes bejáró használja az internetet a webhelyekkel kapcsolatos információk keresése céljából, de itt találja a 10 leggyakoribb, amelyet aggódnia kell.

Googlebot: Google keresőmotor
Bingbot: A Microsoft Bing keresőmotorja
Slurp: Yahoo kereső
DuckDuckBot: DuckDuckGo kereső
Baiduspider: Kínai Baidu kereső
YandexBot: Orosz Yandex kereső
Exabot: Francia Exalead kereső
Facebot: A Facebook feltérképező robotja
ia_archiver: Alexa internetes rangsorolási robotja
MJ12bot: Nagy hivatkozású indexelő adatbázis

Vegyük a fenti példahelyzetet, ha akarodahhoz, hogy a Googlebot mindent indexelhessen a webhelyén, de meg akarta akadályozni, hogy a Yandex az orosz alapú cikktartalmat indexelje, a következő sorokat kell hozzáadnia a robots.txt fájlhoz.

User-agent: googlebot Disallow: Disallow: /wp-admin/ Disallow: /wp-login.php

User-agent: yandexbot Disallow: Disallow: /wp-admin/ Disallow: /wp-login.php Disallow: /russia/

Mint láthatja, az első szakasz csak blokkoljaA Google nem feltérképezi a WordPress bejelentkezési oldalát és az adminisztrációs oldalakat. A második szakasz blokkolja a Yandexet ugyanabból, hanem a webhelyének teljes területéből, ahol Oroszország-ellenes tartalommal rendelkező cikkeket tett közzé.

Ez egy egyszerű példa a tiltása parancs az Ön webhelyét látogató webrobotok irányítására.

Egyéb Robots.txt parancsok

A Disallow nem az egyetlen parancs, amelyhez hozzáférhetsz a robots.txt fájlban. Használhatja a többi parancsot is, amelyek irányítják, hogy egy robot miként mászhat be az Ön webhelyén.

tiltása: Felszólítja a felhasználói ügynököt, hogy kerülje el a meghatározott URL-ek vagy a webhely teljes szakaszának feltérképezését.
Lehetővé teszi: Lehetővé teszi a webhely meghatározott oldalainak vagy almappáinak finomítását, annak ellenére, hogy esetleg letiltotta a szülőmappát. Például letilthatja: / about /, de engedélyezheti: / about / ryan /.
Crawl-delay: Ez arra szólítja fel a bejárót, hogy várjon xx másodpercig, mielőtt megkezdi a webhely tartalmának feltérképezését.
Oldaltérkép: Adjon meg keresőmotoroknak (Google, Ask, Bing és Yahoo) az XML webhelytérképeinek helyét.

Ne feledje, hogy a botok fognak csak hallgassa meg a parancsokat, amelyeket megadott, amikor megadja a robot nevét.

Az emberek általánosan elkövetett hiba az, hogy tiltja az olyan területeket, mint a / wp-admin / az összes botból, de akkor adjon meg egy googlebot szakaszt, és csak más területeket (például / kb /) tiltjon le.

Mivel a botok csak a szakaszukban megadott parancsokat követik, meg kell újraismételnie azokat a többi parancsot, amelyeket az összes botra megadott (a * user-agent használatával).

tiltása: A parancs arra szólítja fel a felhasználói ügynököt, hogy ne mutasson be egy adott URL-t. Minden URL-hez csak egy „Tiltás:” sor megengedett.
Engedélyezés (csak a Googlebot esetében alkalmazható): A Googlebot parancsával hozzáférhet egy oldalhoz vagy almappához, még akkor is, ha a szülő oldalát vagy az almappáját letiltják.
Crawl-delay: Hány másodpercig kell a robotnak várnia, mielőtt betölti és bejárja az oldal tartalmát. Vegye figyelembe, hogy a Googlebot nem ismeri el ezt a parancsot, de a bejárási sebesség beállítható a Google Search Console-ban.
Oldaltérkép: Az URL-hez társított XML webhelytérkép (ek) helyének kihívására szolgál. Vegye figyelembe, hogy ezt a parancsot csak a Google, a Ask, a Bing és a Yahoo támogatja.

Ne feledje, hogy a robots.txt célja az, hogy a legális robotok (például a keresőmotorok robotjai) hatékonyabban feltérképezzék webhelyét.

Nagyon sok gonosz bejáró vanamelyek feltérképezik a webhelyét, hogy olyan dolgokat végezzen, mint például az e-mail címek lekaparása vagy a tartalom ellopása. Ha meg akarja próbálni a robots.txt fájlt, hogy megakadályozza a robotokat abban, hogy bármi feltérképezzenek a webhelyén, ne aggódjon. A bejárók készítői általában figyelmen kívül hagynak mindent, amit a robots.txt fájlba helyezett.

Miért tilthat bármit?

A legtöbb webhelytulajdonos elsődleges szempont, hogy a Google keresőmotorja minél több minőségi tartalmat mutasson be webhelyén.

A Google azonban csak korlátozott mértékben költ feltérképezési költségvetés és feltérképezési sebesség az egyes oldalakon. A feltérképezés aránya azt jelenti, hogy a Googlebot másodpercenként hány kérést fog tenni az Ön webhelyére a feltérképezési esemény során.

Ennél fontosabb a feltérképezési költségvetés, így vansok teljes kérelem, amelyet a Googlebot feltesz egy webhelyen való feltérképezésre. A Google „feltölti” feltérképezési költségvetését azáltal, hogy a webhely olyan területeire összpontosít, amelyek nagyon népszerűek vagy nemrégiben megváltoztak.

Nem vak vagy ezen információk iránt. Ha ellátogat a Google Webmestereszközökbe, láthatja, hogy a bejáró hogyan kezeli a webhelyet.

Mint láthatja, a bejáró minden nap állandóan tartja tevékenységét a webhelyén. Nem feltérképezi az összes webhelyet, hanem csak azokat, amelyeket a legfontosabbnak tartja.

Miért hagyja a Googlebot bírója eldönteni, hogy mi történikfontos webhelyén, amikor a robots.txt fájl segítségével megmondhatja, mi a legfontosabb oldal? Ez megakadályozza, hogy a Googlebot pazarolja az idejét webhelye alacsony értékű oldalain.

A feltérképezési költségkeret optimalizálása

A Google Webmester Eszközök segítségével ellenőrizheti, hogy a Googlebot olvassa-e a robots.txt fájlt, és vannak-e hibák.

Ez segít ellenőrizni, hogy a robots.txt fájlt megfelelően szerkesztette-e.

Milyen oldalakat kellene tiltania a Googlebotról? Jó, ha webhelyének SEO nem engedélyezi az alábbi kategóriák használatát.

Másolatos oldalak (például nyomtatóbarát oldalak)
Köszönjük az űrlap alapú megrendeléseket követő oldalakat
Megrendelés vagy információ lekérdezési űrlapok
Kapcsolattartási oldalak
Bejelentkezés oldal
Ólommágneses „értékesítési” oldalak

Ne hagyja figyelmen kívül a Robots.txt fájlt

Az új webhelyek tulajdonosai által a legnagyobb hiba azmég a robots.txt fájlt sem nézi meg. A legrosszabb helyzet az lehet, hogy a robots.txt fájl valójában megakadályozza az Ön webhelyét vagy annak egy részét, hogy egyáltalán ne mászjon be.

Feltétlenül ellenőrizze a robots.txt fájlt és ellenőrizze annak optimalizálását. Ily módon a Google és más fontos keresőmotorok „látják” az összes fantasztikus dolgot, amelyet webhelyén kínál a világ számára.