도메인의 Robots.txt 파일은 무엇입니까?

새로운 웹 사이트 소유자에게 가장 큰 실수 중 하나는 robots.txt 파일을 보지 않는 것입니다. 어쨌든 무엇이고 왜 그렇게 중요한가? 답변이 있습니다.

웹 사이트를 소유하고 있고 사이트에 관심이있는 경우SEO 건강을 위해서는 도메인의 robots.txt 파일에 익숙해 져야합니다. 도메인을 빠르게 시작하고, 빠른 WordPress 웹 사이트를 설치하며, robots.txt 파일로 아무것도하지 않는 사람들은 믿거 나 말거나 말입니다.

이것은 위험합니다. robots.txt 파일을 잘못 구성하면 실제로 사이트의 SEO 상태가 손상되고 트래픽 증가 가능성이 손상 될 수 있습니다.

Robots.txt 파일은 무엇입니까?

그만큼 Robots.txt 파일의 이름은 본질적으로웹 사이트에서 크롤링 할 수있는 방법과 대상에 대한 검색 엔진 로봇과 같은 웹 로봇에 대한 지시문을 나열하는 파일입니다. 이것은 1994 년 이후 웹 표준으로 이어졌으며 모든 주요 웹 크롤러는 표준을 준수합니다.

파일은 텍스트 형식으로 저장됩니다 (txt extension)을 찾을 수 있습니다. 실제로 도메인을 입력하고 /robots.txt를 입력하면 모든 웹 사이트의 robot.txt 파일을 볼 수 있습니다. groovyPost로이 작업을 시도하면 잘 구성된 robot.txt 파일의 예가 표시됩니다.

파일은 단순하지만 효과적입니다. 이 예제 파일은 로봇을 구분하지 않습니다. 명령을 사용하여 모든 로봇에 명령이 발행됩니다. 사용자 에이전트: * 지령. 즉, 해당 명령을 따르는 모든 명령은 사이트를 방문하여 크롤링하는 모든 로봇에 적용됩니다.

웹 크롤러 지정

특정 규칙을 지정할 수도 있습니다특정 웹 크롤러. 예를 들어 Googlebot (Google의 웹 크롤러)이 사이트의 모든 기사를 크롤링하도록 허용 할 수 있지만 러시아 웹 크롤러 인 Yandex Bot은 러시아에 대한 정보가 다른 사이트의 기사를 크롤링하지 못하게 할 수 있습니다.

웹 사이트에 대한 정보를 얻기 위해 인터넷을 검색하는 수백 개의 웹 크롤러가 있지만 가장 걱정해야 할 10 가지가 여기에 나열되어 있습니다.

구글 봇: Google 검색 엔진
빙봇: Microsoft의 Bing 검색 엔진
슬러 프: 야후 검색 엔진
오리 덕봇: DuckDuckGo 검색 엔진
바이두 스파이더: 중국 바이두 검색 엔진
YandexBot: 러시아어 Yandex 검색 엔진
엑 사봇: 프랑스어 Exalead 검색 엔진
페이스 봇: 페이스 북 크롤링 봇
ia_archiver: Alexa의 웹 순위 크롤러
MJ12bot: 큰 링크 인덱싱 데이터베이스

원하는 경우 위의 시나리오 예Googlebot이 사이트의 모든 항목을 색인 할 수 있지만 Yandex가 러시아어 기반 기사 콘텐츠의 색인을 생성하지 못하도록하려면 robots.txt 파일에 다음 줄을 추가하십시오.

User-agent: googlebot Disallow: Disallow: /wp-admin/ Disallow: /wp-login.php

User-agent: yandexbot Disallow: Disallow: /wp-admin/ Disallow: /wp-login.php Disallow: /russia/

보시다시피, 첫 번째 섹션은 차단Google은 WordPress 로그인 페이지 및 관리 페이지를 크롤링하지 않습니다. 두 번째 섹션은 Yandex를 차단할뿐만 아니라 반 러시아 콘텐츠가 포함 된 기사를 게시 한 사이트의 전체 영역에서도 차단합니다.

이것은 당신이 사용하는 방법의 간단한 예입니다 허용하지 않음 웹 사이트를 방문하는 특정 웹 크롤러를 제어하는 명령입니다.

다른 Robots.txt 명령

robots.txt 파일에서 액세스 할 수있는 유일한 명령은 허용 안함입니다. 로봇이 사이트를 크롤링하는 방법을 지시하는 다른 명령을 사용할 수도 있습니다.

허용하지 않음: 사용자 에이전트에게 특정 URL 또는 사이트의 전체 섹션을 크롤링하지 않도록 지시합니다.
허용하다: 상위 폴더를 허용하지 않았더라도 사이트의 특정 페이지 또는 하위 폴더를 미세 조정할 수 있습니다. 예를 들어 / about /를 허용하지 않고 / about / ryan /을 허용 할 수 있습니다.
크롤링 지연: 크롤러가 사이트 콘텐츠 크롤링을 시작하기 전에 xx 초 동안 기다립니다.
사이트 맵 : 검색 엔진 (Google, Ask, Bing 및 Yahoo)에 XML 사이트 맵의 위치를 제공하십시오.

봇은 뿐 봇 이름을 지정할 때 제공 한 명령을 듣습니다.

사람들이 흔히 저지르는 실수는 모든 봇에서 / wp-admin /과 같은 영역을 허용하지 않지만 Googlebot 섹션을 지정하고 / about /와 같은 다른 영역 만 허용하지 않는 것입니다.

봇은 섹션에서 지정한 명령 만 따르므로 모든 봇에 대해 * user-agent를 사용하여 지정한 다른 모든 명령을 다시 설명해야합니다.

허용하지 않음: 사용자 에이전트에게 특정 URL을 크롤링하지 않도록 지시하는 데 사용되는 명령입니다. 각 URL에는 하나의“Disallow :”줄만 허용됩니다.
허용 (Googlebot에만 해당): 상위 페이지 또는 하위 폴더가 허용되지 않더라도 Googlebot에게 페이지 또는 하위 폴더에 액세스 할 수 있도록 명령합니다.
크롤링 지연: 페이지 콘텐츠를로드하고 크롤링하기 전에 크롤러가 몇 초 동안 기다려야합니까? Googlebot은이 명령을 승인하지 않지만 Google Search Console에서 크롤링 속도를 설정할 수 있습니다.
사이트 맵:이 URL과 연관된 XML 사이트 맵의 위치를 불러오는 데 사용됩니다. 이 명령은 Google, Ask, Bing 및 Yahoo에서만 지원됩니다.

robots.txt는 합법적 인 봇 (예 : 검색 엔진 봇)이 사이트를보다 효과적으로 크롤링하는 데 도움을주기위한 것입니다.

사악한 크롤러가 많이 있습니다.이메일 주소를 긁거나 콘텐츠를 도용하는 등의 작업을 수행하기 위해 사이트를 크롤링하고 있습니다. robots.txt 파일을 사용하여 해당 크롤러가 사이트의 어떤 항목도 크롤링하지 못하도록하려면 귀찮게하지 마십시오. 크롤러의 제작자는 일반적으로 robots.txt 파일에 입력 한 내용을 무시합니다.

왜 아무것도 허용하지 않습니까?

대부분의 웹 사이트 소유자는 Google 검색 엔진이 웹 사이트에서 가능한 한 양질의 콘텐츠를 크롤링하도록하는 것이 가장 큰 관심사입니다.

그러나 Google은 제한된 비용 만 소비합니다. 크롤링 예산 과 크롤링 속도 개별 사이트에서. 크롤링 속도는 크롤링 이벤트 중 Googlebot이 사이트에 요청하는 초당 요청 수입니다.

크롤링 예산이 더 중요합니다.Googlebot이 한 번의 세션으로 사이트를 크롤링하기 위해 요청하는 총 횟수입니다. Google은 매우 인기가 있거나 최근에 변경된 사이트 영역에 초점을 두어 크롤링 예산을“소비”합니다.

귀하는이 정보에 대해 눈이 멀지 않습니다. Google 웹 마스터 도구를 방문하면 크롤러가 사이트를 어떻게 처리하고 있는지 확인할 수 있습니다.

보시다시피 크롤러는 사이트에서의 활동을 매일 일정하게 유지합니다. 모든 사이트를 크롤링하는 것이 아니라 가장 중요하다고 생각되는 사이트 만 크롤링합니다.

무엇을 결정하기 위해 Googlebot에게 맡겨야 하는가?robots.txt 파일을 사용하여 가장 중요한 페이지가 무엇인지 알려면 사이트에서 중요합니까? 이렇게하면 Googlebot이 사이트의 저가 페이지에서 시간을 낭비하지 못하게됩니다.

크롤링 예산 최적화

Google 웹 마스터 도구를 사용하면 Googlebot이 robots.txt 파일을 잘 읽고 있는지, 오류가 있는지 확인할 수 있습니다.

이는 robots.txt 파일을 올바르게 구성했는지 확인하는 데 도움이됩니다.

Googlebot에서 어떤 페이지를 허용하지 않아야하나요? 사이트 SEO에서 다음과 같은 카테고리의 페이지를 허용하지 않는 것이 좋습니다.

중복 페이지 (예 : 프린터 친화적 페이지)
양식 기반 주문을 따르는 페이지 감사합니다
주문 또는 정보 질의 양식
연락처 페이지
로그인 페이지
리드 자석 "판매"페이지

Robots.txt 파일을 무시하지 마십시오

새로운 웹 사이트 소유자가 저지르는 가장 큰 실수는robots.txt 파일을 보지 않아도됩니다. 최악의 상황은 robots.txt 파일이 실제로 사이트 또는 사이트 영역이 크롤링되는 것을 차단하고있을 수 있습니다.

robots.txt 파일을 검토하고 최적화되었는지 확인하십시오. 이런 식으로 Google 및 기타 중요한 검색 엔진은 웹 사이트를 통해 전 세계에 제공하는 모든 멋진 것들을 "볼"수 있습니다.