robots.txt 파일 이란? 무엇일까 알아봅시다.
robots.txt 파일이 하는 역할은 구글이나 네이버, 다음 등과 같은 대형 포털의 검색로봇이 내 웹사이트 혹은 티스토리 및 블로그에 접근할 때 접근할 수 있는 권한을 주는 파일입니다.
robots.txt 파일에다가 구글 로봇은 오지 마.. 혹은 특정 폴더는 검색하지 마.
이런 이야기를 적으면 로봇들이 해당 웹사이트를 볼 수 없게 됩니다. 로봇들이 웹사이트들의 내용을 수집하는 과정을 크롤링이라고 표현하는데 이 크롤링을 제어할 수 있게 됩니다.
구글에서 정의한 robots.txt 파일 내용을 살펴봅니다.
내 웹사이트에 robots.txt 파일이 필요한가요?
아니요. Googlebot에서 웹사이트를 방문하면 먼저 robots.txt 파일 검색을 시도하여 크롤링하기 위한 권한을 요청합니다. robots.txt 파일, 로봇 메타 태그 또는 X-Robots-Tag HTTP 헤더가 없는 웹사이트는 대개 정상적으로 크롤링 및 색인 생성됩니다.
구글검색센터에서 제공하는 robot.txt 파일의 기본 형태를 살펴보겠습니다.
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml
이 robots.txt 파일의 의미는 다음과 같습니다.
- 이름이 Googlebot인 사용자 에이전트는 http://example.com/nogooglebot/으로 시작하는 URL을 크롤링할 수 없습니다.
- 그 외 모든 사용자 에이전트는 전체 사이트를 크롤링할 수 있습니다. 이 부분을 생략해도 결과는 동일합니다. 사용자 에이전트가 전체 사이트를 크롤링할 수 있도록 허용하는 것이 기본 동작입니다.
- 사이트의 사이트맵 파일은 http://www.example.com/sitemap.xml에 있습니다.
위 내용을 조금 쉽게 알아봅시다.
User-agent : 검색로봇을 이야기 합니다.
여기서는 Googlebot 은 내 사이트에 들어와도 된다 는 의미입니다.
Disallow : /nogooglebot/
그런데, /nogooglebot/ 폴더는 볼수 없다.
라는 이야기 입니다. 구글검색 로봇이 내 사이트를 마음대로 들어올 수는 있지만 해당 폴더만큼은 볼수 없다는 내용입니다.
별거 없죠 ^^
그럼 다음 내용은,
User-agent : * > 모든 포털의 검색 로봇이 접근 가능하다.
Allow : / > '/' 는 최상위 폴더인 루트 디렉토리를 뜻합니다. 즉, 모든 폴더를 검색 가능하다.
라는 의미 입니다.
마지막으로, sitemap 의 위치를 로봇들에게 알려줍니다.
sitemap 은 어디에 있으니까 거기서 내 사이트의 구조를 봐라~ 라는 이야기 입니다.
robots.txt 파일내 sitemap 은 기재하지 않아도 되며, 포털별로 sitemap을 직접 등록하면 동작 합니다.
https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=ko
검색 로봇들이 웹사이트 들을 검색하는 동작을 할때,
처음으로 robots.txt 에서 접근 권한을 확인 하고, sitemap.xml 을 통해서 해당 사이트의 구조를 파악합니다.
1. 접근 할수 있구나...
2. 네 사이트는 이렇게 생겼구나...
이렇게 로봇이 인식하면 우리 사이트가 더 잘 검색이 되겠죠?
이게 바로 로봇이 웹사이트를 크롤링(검색 수집) 하는 방식입니다. 별거 없죠?
그럼 여기서 하나더!
우리가 잘 쓰고 있는 티스토리의 robots.txt 파일은 어떻게 생겼을까요?
우리가 만든적이 없는데 말이죠. 티스토리 robots.txt 는 하기 처럼 생겼습니다.
User-agent: *
Disallow: /owner
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: bingbot
Crawl-delay: 30
내용은 모든 검색 로봇들아 내 사이트에 들어와도 된다. 하지만 Disallow 된 폴더들은 검색이 안된다.
그리고, Mediapartners-Google 로봇은 모든 폴더를 볼수 있어.
Bingbot (빙 검색로봇:마이크로소프트) 은 크롤링을 30초마다 한번씩만 해야돼~
라는 의미 입니다. ㅋㅋㅋ Big 로봇 이 자꾸 오면 트래픽의 문제가 생기기에 막아놓은듯 합니다.
티스토리 개발팀에서 신경써서 만들어 주었네요. 참고로 티스토리 robots.txt 파일은 티스토리 개발팀에서 만들어 주기에 우리가 별도로 신경쓰지 않으셔도 됩니다.
마지막으로 네이버 robots.txt 파일을 한번 보겠습니다.
User-agent: *
Disallow: /
Allow : /$
모든 로봇들에 검색은 되지만, 사이트의 루트 페이지만 수집허용으로 설정한다는 의미입니다.
폐쇄적 이네요. ㅋㅋㅋ
참고로, robots.txt 파일은 웹사이트 주소 에 /robots.txt 파일을 붙여주면 볼수 있답니다.
티스토리 역시 자신의 블로그에 /robots.txt 파일을 붙여주면 되겠죠?
오늘은 robots.txt 파일의 역할에 대해서 알아보았습니다.
자신이 직접 웹사이트를 만들때는 robots.txt 파일을 작성하여 검색로봇들이 크롤링을 손쉽게 할수 있게 해주는 것이 좋겠습니다. 감사합니다.
'티스토리 세팅' 카테고리의 다른 글
티스토리 파비콘 등록하기 (3) | 2022.10.29 |
---|---|
파비콘 제작 웹 사이트 소개 (4) | 2022.10.26 |
티스토리 다음 검색 등록하기 (2) | 2022.10.19 |
티스토리 장애 기록 (8) | 2022.10.18 |
백링크 란? (2) | 2022.10.17 |
댓글