robots.txt로 검색엔진 접근, 검색결과 노출을 차단(막고) 하고 싶을 때

Written by zinicap

Published under SEO/SMO

2016년 4월 15일

No comments

Warning: in_array() [function.in-array]: Wrong datatype for second argument in /zinicap/www/wp-content/plugins/yet-another-related-posts-plugin/classes/YARPP_Core.php on line 1009

웹 사이트 해킹 위험이 있기 때문에 SEO는 절대 하면 안 된다는 황당한 주장을 펴는 기업 마케팅 책임자를 만난 적이 있다. 이 처럼 SEO 관련해서 잘 못 알려진 정보들이 있는데 보통 전문가들이라고 하는 사람들도 잘 못 알고 있는 내용들에 대해 몇 편에 나눠 정리해 본다.

검색 결과 화면(SERP)에 노출시키고 싶지 않은 페이지가 있다면 어떻게 하는 것이 안전할까?

robots.txt 파일에서 차단시킨다.
meta tag를 이용해서 noindex, nofollow 시킨다.

둘 다 완벽하지는 않지만 그래도 후자가 낫다.

애초에 웹에 노출시키고 싶지 않은 정보였다면 당연히 웹 서버에 올리지도 않았겠지만 외부 공개는 하지 않더라도 웹 서버에 올려야 할 경우가 있다. 이 경우에는 해당 정보가 위치한 서버 디렉토리에 비밀번호를 걸어 URL을 차단하는 것이 안전한 방법이다.

robots.txt 는 사이트 루트에 위치하면서 검색엔진이 접근하지 않도록 미리 알려주는 역할을 하기 위해 필요하다. 그럼으로 만약 검색엔진 접근이 잘 되는 사이트를 갖길 원하면 이 파일은 필요 없다는 얘기와도 같다. robots.txt 파일에서 sitemap 파일 경로를 알려 주기 위해 필요하다는 주장을 펼치기도 하는데 이것도 꼭 맞는 얘기도 아니다.(다음 편에서 이 부분도 다시 정리하기로 하고.)

robots.txt 파일을 사용하는 주 목적은 검색 봇(로봇, 크롤러)이 일으키는 트래픽을 제어하는데 있지 검색결과화면(SERP)에 특정 페이지를 숨기기 위한 용도는 아니다. 이 부분을 오해하고 검색엔진에 노출 시키고 싶지 않은 URL을 robots.txt 파일을 이용해서 차단시키겠다 하는 사람이 있는데 큰 일 날일이다. robots.txt 파일에 중요한 URL을 기록하면 오히려 외부에 공격 장소를 알려주는 것 밖에 되지 않는다.

검색결과에서 특정 페이지(URL)을 숨기고 싶다면 서버 디렉토리 자체에 비밀번호를 걸어 검색엔진 접근을 차단하거나 NOINDEX 태그 명령어나 규칙을 사용해야 한다. googlebot처럼 표준 규약을 제대로 준수하는 봇도 있지만 그렇지 않은 사제 봇도 많기 때문에 robots.txt 파일에 대해 정확히 알고 대처하는 것이 좋다.

참고로 noindex 메타 태그가 정상적으로 작동하기 위해서는 robots.txt 파일이 해당 페이지(URL)를 차단하면 안 된다. 만약 이걸 모르고 신중하게 보호한다는 착각에 robots.txt 파일에서 해당 디렉토리나 URL을 차단하면 로봇이 noindex 태그를 확인할 방법이 없어 검색결과에 계속 노출 될 수 있다. 본인은 잘 막았다고 생각하겠지만 다른 웹 페이지에서 이 주소를 링크했다면 noindex 태그 정보가 없어 그대로 검색에 노출되는 것이다.

About the Author

Posted by zinicap 성과를 측정하지 못하는 마케팅은 광고주의 지지를 이끌지 못합니다. 100% 내부 기술에 의한 프로그램 개발, 데이터 분석, SEO & SNS 통합마케팅, ROI 측정이 가능한 솔루션 기반의 마케팅을 합리적인 가격에 제안 합니다. 문의 : UXKOREA

This post was tagged under: