티스토리 세팅

robots.txt 파일 이란?

나도 처음이야 2022. 10. 22.

robots.txt 파일 이란? 무엇일까 알아봅시다.

robots.txt 파일이 하는 역할은 구글이나 네이버, 다음 등과 같은 대형 포털의 검색로봇이 내 웹사이트 혹은 티스토리 및 블로그에 접근할 때 접근할 수 있는 권한을 주는 파일입니다.

robots.txt 파일에다가 구글 로봇은 오지 마.. 혹은 특정 폴더는 검색하지 마.

이런 이야기를 적으면 로봇들이 해당 웹사이트를 볼 수 없게 됩니다. 로봇들이 웹사이트들의 내용을 수집하는 과정을 크롤링이라고 표현하는데 이 크롤링을 제어할 수 있게 됩니다.

구글에서 정의한 robots.txt 파일 내용을 살펴봅니다.

https://developers.google.com/search/docs/advanced/robots/robots-faq?hl=ko#h01

robots.txt란 무엇인가요? | Google 검색 센터 | 문서 | Google Developers

robots.txt가 무엇인지 궁금하거나 robots.txt와 관련하여 도움이 필요한 경우 자주 묻는 질문과 답변을 찾아보세요.

developers.google.com

내 웹사이트에 robots.txt 파일이 필요한가요?

아니요. Googlebot에서 웹사이트를 방문하면 먼저 robots.txt 파일 검색을 시도하여 크롤링하기 위한 권한을 요청합니다. robots.txt 파일, 로봇 메타 태그 또는 X-Robots-Tag HTTP 헤더가 없는 웹사이트는 대개 정상적으로 크롤링 및 색인 생성됩니다.

구글검색센터에서 제공하는 robot.txt 파일의 기본 형태를 살펴보겠습니다.

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

이 robots.txt 파일의 의미는 다음과 같습니다.

이름이 Googlebot인 사용자 에이전트는 http://example.com/nogooglebot/으로 시작하는 URL을 크롤링할 수 없습니다.
그 외 모든 사용자 에이전트는 전체 사이트를 크롤링할 수 있습니다. 이 부분을 생략해도 결과는 동일합니다. 사용자 에이전트가 전체 사이트를 크롤링할 수 있도록 허용하는 것이 기본 동작입니다.
사이트의 사이트맵 파일은 http://www.example.com/sitemap.xml에 있습니다.

위 내용을 조금 쉽게 알아봅시다.

User-agent : 검색로봇을 이야기 합니다.

여기서는 Googlebot 은 내 사이트에 들어와도 된다 는 의미입니다.

Disallow : /nogooglebot/

그런데, /nogooglebot/ 폴더는 볼수 없다.

라는 이야기 입니다. 구글검색 로봇이 내 사이트를 마음대로 들어올 수는 있지만 해당 폴더만큼은 볼수 없다는 내용입니다.

별거 없죠 ^^

그럼 다음 내용은,

User-agent : * > 모든 포털의 검색 로봇이 접근 가능하다.

Allow : / > '/' 는 최상위 폴더인 루트 디렉토리를 뜻합니다. 즉, 모든 폴더를 검색 가능하다.

라는 의미 입니다.

마지막으로, sitemap 의 위치를 로봇들에게 알려줍니다.

sitemap 은 어디에 있으니까 거기서 내 사이트의 구조를 봐라~ 라는 이야기 입니다.

robots.txt 파일내 sitemap 은 기재하지 않아도 되며, 포털별로 sitemap을 직접 등록하면 동작 합니다.

https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=ko

robots.txt 파일 만들기 및 제출 | Google 검색 센터 | 문서 | Google Developers

robots.txt 파일은 사이트의 루트에 위치합니다. robots.txt 파일을 만들고 예를 확인하며 robots.txt 규칙을 확인하는 방법을 알아보세요.

developers.google.com

검색 로봇들이 웹사이트 들을 검색하는 동작을 할때,

처음으로 robots.txt 에서 접근 권한을 확인 하고, sitemap.xml 을 통해서 해당 사이트의 구조를 파악합니다.

1. 접근 할수 있구나...

2. 네 사이트는 이렇게 생겼구나...

이렇게 로봇이 인식하면 우리 사이트가 더 잘 검색이 되겠죠?

이게 바로 로봇이 웹사이트를 크롤링(검색 수집) 하는 방식입니다. 별거 없죠?

그럼 여기서 하나더!

우리가 잘 쓰고 있는 티스토리의 robots.txt 파일은 어떻게 생겼을까요?

우리가 만든적이 없는데 말이죠. 티스토리 robots.txt 는 하기 처럼 생겼습니다.

User-agent: *
Disallow: /owner
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: bingbot
Crawl-delay: 30

내용은 모든 검색 로봇들아 내 사이트에 들어와도 된다. 하지만 Disallow 된 폴더들은 검색이 안된다.

그리고, Mediapartners-Google 로봇은 모든 폴더를 볼수 있어.

Bingbot (빙 검색로봇:마이크로소프트) 은 크롤링을 30초마다 한번씩만 해야돼~

라는 의미 입니다. ㅋㅋㅋ Big 로봇 이 자꾸 오면 트래픽의 문제가 생기기에 막아놓은듯 합니다.

티스토리 개발팀에서 신경써서 만들어 주었네요. 참고로 티스토리 robots.txt 파일은 티스토리 개발팀에서 만들어 주기에 우리가 별도로 신경쓰지 않으셔도 됩니다.

마지막으로 네이버 robots.txt 파일을 한번 보겠습니다.

User-agent: *
Disallow: /
Allow : /$

모든 로봇들에 검색은 되지만, 사이트의 루트 페이지만 수집허용으로 설정한다는 의미입니다.

폐쇄적 이네요. ㅋㅋㅋ

참고로, robots.txt 파일은 웹사이트 주소 에 /robots.txt 파일을 붙여주면 볼수 있답니다.

네이버는 www.naver.com/robots.txt

티스토리 역시 자신의 블로그에 /robots.txt 파일을 붙여주면 되겠죠?

오늘은 robots.txt 파일의 역할에 대해서 알아보았습니다.

자신이 직접 웹사이트를 만들때는 robots.txt 파일을 작성하여 검색로봇들이 크롤링을 손쉽게 할수 있게 해주는 것이 좋겠습니다. 감사합니다.

백링크 란?

백링크 란 무엇일까요? 역으로 링크가 된다는 의미입니다. 더 쉽게 이야기하자면, 우리가 운영 중인 사이트 혹은 티스토리, 블로그의 주소를 다른 사람들이 웹상에 올려두어서 해당 링크로부터

soo0100.tistory.com

저작자표시 비영리 변경금지

'티스토리 세팅' 카테고리의 다른 글

티스토리 파비콘 등록하기 (3)	2022.10.29
파비콘 제작 웹 사이트 소개 (4)	2022.10.26
티스토리 다음 검색 등록하기 (2)	2022.10.19
티스토리 장애 기록 (8)	2022.10.18
백링크 란? (2)	2022.10.17

robots.txt 파일 이란?

내 웹사이트에 robots.txt 파일이 필요한가요?

'티스토리 세팅' 카테고리의 다른 글

댓글

티스토리툴바