Qu'est-ce que le fichier Robots.txt dans un domaine?

Une des plus grandes erreurs pour les nouveaux propriétaires de sites Web est de ne pas chercher dans leur fichier robots.txt. Alors qu'est-ce que c'est quand même, et pourquoi si important? Nous avons vos réponses.

Si vous possédez un site Web et que vous vous souciez deSEO santé, vous devez vous familiariser avec le fichier robots.txt de votre domaine. Croyez-le ou non, il y a un nombre inquiétant de personnes qui lancent rapidement un domaine, installent un site Web WordPress rapide et ne se donnent jamais la peine de faire quoi que ce soit avec leur fichier robots.txt.

C'est dangereux. Un fichier robots.txt mal configuré peut en réalité détruire l’état de SEO de votre site et nuire à vos chances de développer votre trafic.

Qu'est-ce que le fichier Robots.txt?

le Robots.txt fichier porte bien son nom car c’est essentiellement unfichier qui répertorie les directives pour les robots Web (comme les robots des moteurs de recherche) sur la façon dont ils peuvent explorer sur votre site Web. Cette norme Web a été suivie par les sites Web depuis 1994 et tous les principaux robots d'exploration de sites Web y adhèrent.

Le fichier est stocké au format texte (avec un fichier.extension txt) sur le dossier racine de votre site web. En fait, vous pouvez afficher le fichier robot.txt de n’importe quel site Web en saisissant simplement le domaine suivi de /robots.txt. Si vous essayez cela avec groovyPost, vous verrez un exemple de fichier robot.txt bien structuré.

Le fichier est simple mais efficace. Cet exemple de fichier ne différencie pas les robots. Les commandes sont envoyées à tous les robots en utilisant le Agent utilisateur: * directif. Cela signifie que toutes les commandes qui suivent s’appliquent à tous les robots qui visitent le site pour l’explorer.

Spécifier les Web Crawlers

Vous pouvez également spécifier des règles spécifiques pourcrawlers web spécifiques. Par exemple, vous pouvez autoriser Googlebot (robot d’exploration Web de Google) à analyser tous les articles de votre site, mais vous pouvez également interdire au robot d’exploration Web russe Yandex Bot d’explorer des articles de votre site contenant des informations dénigrantes sur la Russie.

Des centaines de robots Internet parcourent Internet pour rechercher des informations sur les sites Web, mais les 10 plus courants qui vous préoccupent sont répertoriés ici.

Googlebot: Moteur de recherche Google
Bingbot: Le moteur de recherche Bing de Microsoft
Slurp: Moteur de recherche Yahoo
DuckDuckBot: Moteur de recherche DuckDuckGo
Baiduspider: Moteur de recherche chinois Baidu
YandexBot: Moteur de recherche russe Yandex
Exabot: Moteur de recherche French Exalead
Facebot: Le robot d'exploration de Facebook
ia_archiver: Le crawler du classement Web d’Alexa
MJ12bot: Base de données d'indexation de liens volumineux

Prenons l'exemple de scénario ci-dessus, si vous vouliezPour permettre à Googlebot d’indexer tout le contenu de votre site, mais que vous souhaitiez empêcher Yandex d’indexer le contenu de votre article en russe, vous devez ajouter les lignes suivantes à votre fichier robots.txt.

User-agent: googlebot Disallow: Disallow: /wp-admin/ Disallow: /wp-login.php

User-agent: yandexbot Disallow: Disallow: /wp-admin/ Disallow: /wp-login.php Disallow: /russia/

Comme vous pouvez le constater, la première section ne bloque queGoogle en explorant votre page de connexion WordPress et vos pages administratives. La deuxième section bloque Yandex du même contenu, mais également de toute la zone de votre site sur laquelle vous avez publié des articles au contenu anti-russe.

Ceci est un exemple simple de la façon dont vous pouvez utiliser le Refuser commande permettant de contrôler des robots Web spécifiques qui visitent votre site Web.

Autres commandes Robots.txt

Interdire n'est pas la seule commande à laquelle vous avez accès dans votre fichier robots.txt. Vous pouvez également utiliser l'une des autres commandes qui indiqueront comment un robot peut explorer votre site.

Refuser: Indique à l'agent utilisateur d'éviter d'analyser des URL spécifiques ou des sections entières de votre site.
Autoriser: Vous permet d'affiner des pages ou des sous-dossiers spécifiques sur votre site, même si vous avez peut-être interdit un dossier parent. Par exemple, vous pouvez interdire: / about /, mais autoriser ensuite: / about / ryan /.
Délai d'attente: Cela indique au robot d’attendre xx secondes avant de commencer à analyser le contenu du site.
Plan du site: Indiquez aux moteurs de recherche (Google, Ask, Bing et Yahoo) l'emplacement de vos sitemaps XML.

Gardez à l'esprit que les robots vont seulement écoutez les commandes que vous avez fournies lorsque vous spécifiez le nom du bot.

Les gens commettent souvent l’erreur de ne pas autoriser les zones telles que / wp-admin / de tous les robots, mais spécifiez ensuite une section googlebot et interdisent uniquement d’autres zones (comme / à propos de /).

Étant donné que les robots ne suivent que les commandes que vous avez spécifiées dans leur section, vous devez reformuler toutes les autres commandes que vous avez spécifiées pour tous les robots (en utilisant * user-agent).

Refuser: La commande utilisée pour dire à un agent utilisateur de ne pas analyser une URL particulière. Une seule ligne «Interdit:» est autorisée pour chaque URL.
Autoriser (applicable uniquement pour Googlebot)Remarque: La commande indiquant à Googlebot qu’il peut accéder à une page ou à un sous-dossier, même si sa page ou son sous-dossier parent peut être interdite.
Délai d'attente: Combien de secondes un robot devrait attendre avant de charger et d’analyser le contenu de la page. Notez que Googlebot ne reconnaît pas cette commande, mais que le taux d’exploration peut être défini dans la console de recherche Google.
Plan du site: Utilisé pour appeler l'emplacement d'un ou de plusieurs sitemap XML associés à cette URL. Notez que cette commande est uniquement prise en charge par Google, Ask, Bing et Yahoo.

Gardez à l'esprit que robots.txt est conçu pour aider les robots légitimes (comme les robots des moteurs de recherche) à explorer votre site plus efficacement.

Il y a beaucoup de chenilles néfastes là-basqui explorent votre site pour faire des choses telles que gratter des adresses électroniques ou voler votre contenu. Si vous voulez essayer d’utiliser votre fichier robots.txt pour empêcher ces robots d’explorer quoi que ce soit sur votre site, ne vous embêtez pas. Les créateurs de ces robots ignorent généralement tout ce que vous avez inséré dans votre fichier robots.txt.

Pourquoi interdire quoi que ce soit?

Faire en sorte que le moteur de recherche de Google explore autant que possible le contenu de qualité sur votre site Web est une préoccupation majeure pour la plupart des propriétaires de site Web.

Cependant, Google ne dépense qu’une somme limitée budget d'analyse et taux de crawl sur des sites individuels. Le taux d'analyse correspond au nombre de requêtes par seconde que Googlebot adressera à votre site au cours de l'événement d'analyse.

Le plus important est le budget d’exploration, qui explique commentNombre total de requêtes que Googlebot effectuera pour analyser votre site en une seule session. Google "dépense" son budget d'exploration en se concentrant sur les zones de votre site qui sont très populaires ou qui ont changé récemment.

Vous n'êtes pas aveugle à cette information. Si vous visitez Google Webmaster Tools, vous pouvez voir comment le robot analyse votre site.

Comme vous pouvez le constater, le robot veille au quotidien à ce que son activité sur votre site soit constante. Il n’examine pas tous les sites, mais uniquement ceux qu’il considère comme les plus importants.

Pourquoi laisser à Googlebot le soin de décider ce qui estimportant sur votre site, lorsque vous pouvez utiliser votre fichier robots.txt pour lui indiquer quelles sont les pages les plus importantes? Cela empêchera Googlebot de perdre du temps sur les pages de faible valeur de votre site.

Optimiser votre budget d'exploration

Google Webmaster Tools vous permet également de vérifier si Googlebot lit correctement votre fichier robots.txt et s'il contient des erreurs.

Cela vous aide à vérifier que votre fichier robots.txt est correctement structuré.

Quelles pages devez-vous interdire à Googlebot? C’est bien pour votre site que le référencement optimise les catégories de pages suivantes.

Pages dupliquées (comme des pages imprimables)
Merci pages après les commandes basées sur un formulaire
Formulaires de demande de commande ou d'information
Pages de contact
Pages de connexion
Pages de vente "aimant principal"

Ne pas ignorer votre fichier Robots.txt

La plus grande erreur que font les nouveaux propriétaires de sites Web estjamais même en regardant leur fichier robots.txt. La pire situation peut être que le fichier robots.txt bloque réellement votre site, ou des zones de votre site, de toute exploration.

Veillez à examiner votre fichier robots.txt et à vous assurer qu'il est optimisé. De cette façon, Google et d'autres moteurs de recherche importants «voient» toutes les choses fabuleuses que vous proposez au monde avec votre site Web.