Etki Alanındaki Robots.txt Dosyası Nedir?

Yeni web sitesi sahipleri için en büyük hatalardan biri robots.txt dosyasına bakmıyor. Öyleyse neyse, neden bu kadar önemli? Cevaplarını aldık.

Bir web siteniz varsa ve sitenizinSEO sağlığı, kendinizi etki alanınızdaki robots.txt dosyasına aşina hale getirmelisiniz. İster inanın ister inanmayın, bu, hızlı bir şekilde bir etki alanı başlatan, hızlı bir WordPress web sitesi yükleyen ve robots.txt dosyalarıyla hiçbir şey yapmaktan rahatsız olmayan çok sayıda insanın olduğuna inanıyor.

Bu tehlikeli. Kötü yapılandırılmış bir robots.txt dosyası aslında sitenizin SEO sağlığını tahrip edebilir ve trafiğinizi büyütme ihtimaliniz olabilir.

Robots.txt Dosyası Nedir?

Bu Robots.txt dosya, esasen birweb sitenizde nasıl ve neleri tarayabilecekleriyle ilgili web robotları (arama motoru robotları gibi) yönergelerini listeleyen dosya. Bu, 1994'ten beri web siteleri tarafından izlenen bir web standardı ve tüm büyük web tarayıcıları standarda bağlı.

Dosya metin biçiminde saklanır (a.txt eklentisi) web sitenizin kök klasöründe. Aslında, herhangi bir web sitesinin robot.txt dosyasını sadece alan adını yazıp /robots.txt yazarak görüntüleyebilirsiniz. Bunu groovyPost ile yaparsanız, iyi yapılandırılmış bir robot.txt dosyası örneği göreceksiniz.

örnek robot dosyası

Dosya basit ama etkili. Bu örnek dosya robotlar arasında ayrım yapmaz. Komutlar tüm robotlara Kullanıcı ajanı: * direktif. Bu, onu izleyen tüm komutların, siteyi taramak için ziyaret eden tüm robotlara uygulanacağı anlamına gelir.

Web Tarayıcılarını Belirtme

Ayrıca belirli kuralları da belirleyebilirsiniz.belirli web tarayıcıları. Örneğin, Googlebot’un (Google’ın web tarayıcısı) sitenizdeki tüm makaleleri taramasına izin verebilirsiniz, ancak Rus web tarayıcısı Yandex Bot’un sitenizdeki Rusya hakkında aşağılayıcı bilgiler içeren makaleleri taramasını engellemek isteyebilirsiniz.

Web siteleri hakkında bilgi almak için interneti tarayan yüzlerce web tarayıcısı var, ancak endişelenmeniz gereken en yaygın 10 site burada listelenmiştir.

  • Googlebot: Google arama motoru
  • Bingbot: Microsoft’un Bing arama motoru
  • höpürdeterek içmek: Yahoo arama motoru
  • DuckDuckBot: DuckDuckGo arama motoru
  • Baiduspider: Çince Baidu arama motoru
  • YandexBot: Russian Yandex arama motoru
  • Exabot: Fransızca Exalead arama motoru
  • Facebot: Facebook’un tarama botu
  • ia_archiver: Alexa’nın web sıralama tarayıcısı
  • MJ12bot: Büyük link indeksleme veritabanı

İsterseniz yukarıdaki örnek senaryoyu alarakGooglebot’un sitenizdeki her şeyi dizine eklemesini sağlamak, ancak Yandex’in Rus merkezli makale içeriğinizi dizine eklemesini engellemek istiyorsanız, robots.txt dosyanıza aşağıdaki satırları eklersiniz.


User-agent: googlebot
Disallow: Disallow: /wp-admin/
Disallow: /wp-login.php

User-agent: yandexbot
Disallow: Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /russia/

Gördüğünüz gibi, ilk bölüm sadece engelliyorGoogle, WordPress giriş sayfanızı ve yönetim sayfalarınızı tarıyor. İkinci bölüm Yandex'in aynısını değil, aynı zamanda sitenizin Rusya karşıtı içerikli makaleler yayınladığınız alanın tamamını engeller.

Bu, nasıl kullanabileceğinizi gösteren basit bir örnektir. Disallow web sitenizi ziyaret eden belirli web tarayıcılarını kontrol etme komutu.

Diğer Robots.txt Komutları

İzin verme, robots.txt dosyanızda erişebileceğiniz tek komut değildir. Bir robotun sitenizi nasıl tarayabileceğini yönlendirecek diğer komutlardan herhangi birini kullanabilirsiniz.

  • Disallow: Kullanıcı aracısına, belirli URL’leri veya sitenizin tüm bölümlerini taramaktan kaçınmasını söyler.
  • İzin vermek: Bir ana klasöre izin vermemiş olsanız bile, sitenizdeki belirli sayfaların veya alt klasörlerin ince ayarını yapmanızı sağlar. Örneğin: / about / 'a izin veremezsiniz, ancak sonra izin verebilirsiniz: / about / ryan /.
  • Tarama-gecikmesi: Bu, tarayıcıya, sitenin içeriğini taramaya başlamadan önce xx saniye beklemesini söyler.
  • Site haritası: XML site haritalarınızın yerini arama motorlarına (Google, Ask, Bing ve Yahoo) sağlayın.

Botların olacağını unutmayın sadece botun adını belirlerken verdiğiniz komutları dinleyin.

İnsanların yaptığı yaygın bir hata, tüm botlardan / wp-admin / gibi alanlara izin vermemektir, ancak daha sonra bir googlebot bölümü belirtin ve yalnızca diğer alanlara (/ / / / gibi) izin vermeyin.

Botlar sadece kendi bölümlerinde belirlediğiniz komutları takip ettiğinden, tüm botlar için belirttiğiniz tüm komutları yeniden yazmanız gerekir (* user-agent'ı kullanarak).

  • Disallow: Bir kullanıcı aracısına belirli URL’leri taramamasını söylemek için kullanılan komut. Her URL için yalnızca bir "Disallow:" satırı izin verilir.
  • İzin Ver (Yalnızca Googlebot için geçerlidir): Googlebot’a ana sayfaya veya alt klasöre izin verilmese de bir sayfaya veya alt klasöre erişebileceğini söyleme komutu.
  • Tarama-gecikmesi: Bir tarayıcı sayfa içeriğini yüklemeden ve taramadan önce kaç saniye beklemelidir. Googlebot’un bu komutu kabul etmediğini unutmayın, ancak tarama hızı Google Arama Konsolu’nda ayarlanabilir.
  • Site haritası: Bu URL ile ilişkilendirilmiş bir XML site haritasının yerini bulmak için kullanılır. Bu komutun yalnızca Google, Ask, Bing ve Yahoo tarafından desteklendiğini unutmayın.

Robots.txt dosyasının yasal botların (arama motoru botları gibi) sitenizi daha etkili bir şekilde taramasına yardımcı olduğunu unutmayın.

Dışarıda pek çok garip gezgin vare-posta adreslerini kazımak veya içeriğinizi çalmak gibi işlemleri yapmak için sitenizi tarıyor. Bu tarayıcıların sitenizde herhangi bir şeyi taramasını engellemek için robots.txt dosyanızı kullanmayı denemek istiyorsanız, canınızı sıkmayın. Bu tarayıcıların oluşturucuları genellikle robots.txt dosyanıza koyduğunuz her şeyi görmezden gelir.

Neden birşeye izin vermiyorsun?

Google’ın arama motorunu, web sitenizde olabildiğince kaliteli içerik taraması için sağlamak, çoğu web sitesi sahibi için öncelikli bir konudur.

Ancak, Google yalnızca sınırlı bir süre harcıyor tarama bütçesi ve tarama hızı bireysel sitelerde. Tarama hızı, Googlebot’un tarama etkinliği sırasında sitenize kaç istek göndereceğidir.

Daha da önemlisi, tarama bütçesi budur.Googlebot’un sitenizi bir oturumda taraması için yapacağı toplam istek sayısı. Google, sitenizin çok popüler olan veya son zamanlarda değişen alanlarına odaklanarak tarama bütçesini “harcar”.

Bu bilgilere kör değilsin. Google Web Yöneticisi Araçları’nı ziyaret ederseniz, tarayıcının sitenizi nasıl kullandığını görebilirsiniz.

google tarayıcı istatistikleri

Görebileceğiniz gibi, tarayıcı sitenizdeki etkinliğini her gün oldukça sabit tutar. Tüm siteleri taramaz, ancak yalnızca en önemli olduğunu düşündüğü siteleri tarar.

Neyin olduğuna karar vermek için neden Googlebot’aSitenizde önemli olan robots.txt dosyanızı ne zaman kullanabileceğinizi en önemli sayfaların neler olduğunu söylemek için kullanabilirsiniz. Bu, Googlebot’un sitenizdeki düşük değerli sayfalarda zaman kaybetmesini önler.

Tarama Bütçenizi Optimize Etme

Google Web Yöneticisi Araçları ayrıca Googlebot’un robots.txt dosyanızı okuyup okumadığını ve herhangi bir hata olup olmadığını kontrol etmenizi sağlar.

Google Web Yöneticisi Araçları

Bu, robots.txt dosyanızı doğru yapılandırdığınızı doğrulamanıza yardımcı olur.

Googlebot’tan hangi sayfalara izin vermemelisiniz? Sitenizin SEO’sunun aşağıdaki sayfa kategorilerine izin vermemesi iyidir.

  • Çift sayfalar (yazıcıya uygun sayfalar gibi)
  • Forma dayalı siparişleri takip eden sayfalara teşekkür ederiz.
  • Sipariş veya bilgi sorgu formları
  • İletişim sayfaları
  • Giriş sayfaları
  • Kurşun mıknatıs “satış” sayfaları

Robots.txt Dosyanızı Yoksayma

Yeni web sitesi sahiplerinin yaptığı en büyük hatarobots.txt dosyasına bile bakmadım. En kötü durum, robots.txt dosyasının aslında sitenizi veya sitenizin alanlarını taramasını engelliyor olabilir.

Robots.txt dosyanızı incelediğinizden ve optimize edildiğinden emin olun. Bu şekilde, Google ve diğer önemli arama motorları, web sitenizle dünyaya sunduğunuz tüm harika şeyleri “görür”.

0

Benzer makaleler

yorum Yap