본문 바로가기

IM/tistory

robots.txt에 의해 차단됨 해제 방법

728x90

크롤링됨 현재 색인이 생성되지 않음을 해결할 수 있는 방법은 없나요? robots.txt에 의해 차단됨 해제 방법을 통해서 해결할 수 있다는 구글의 답변을 듣고 한번 따라 해 봤습니다. 결론부터 말하자면 답은 없다입니다. 그래도 답답하신 분들은 참고하시길 바랍니다. 

 

1. 크롤링이란 무엇인가요?

일단 크롤링이란 영단어를 해석하면 꼬물꼬물 기어다니는 의미로 표현되고 있습니다. 그 말인즉, 애벌레가 꼬물꼬물 여기저기를 비집고 기어 다니듯, 로봇이 해당 사이트에 여기저기 비집고 다니면서 해당 사이트의 모든 것들을 가지고 가서 분석한다는 의미의 IT용어로 사용되고 있는 것인데요. 근데 간혹 우리는 그게 제대로 되지 않아서 광고송출에 어려움을 겪기도 합니다. 왜 그런지 한번 살펴볼까요?

2. 크롤링 증상

그럼 크롤링에 문제가 생기면 어떤 증상이 나타나는지 확인해 볼게요. 정확히는 크롤링의 문제라기보다는 인식하는 과정에서 구글봇의 고질적인 문제가 아닐까 생각이 듭니다. 

보시면, 크롤링도 되고 허용도 되었고, 색상 생성도 되었는데 왜 자꾸 문제가 생기는 것일까요?

 

3. 크롤링의 원리

크롤링은 우리가 매일 발행하는 포스팅에 하나의 사이트로 처리하고 해당 내용을 크롤링하게 됩니다. 우리는 하나의 사이트를 형성했다고 생각하지만 사실은 모바일과 웹의 사이트인 즉, 2개의 사이트가 형성이 됩니다. 이 과정에서 웹상에서 나타나는 사이트 주소는 http://주소.tistory.com/과 과 같이 표현되는 반면, 모바일 상에서는 http://m.주소.tistory.com/과 과 같이 나타나게 되는 것이죠. 그러면 크롤링 과정에서 두 개의 사이트는 같은 사람이 같은 시간에 올린 하나의 포스팅이지만 하나를 중복해서 오류로 인식하게 되는 경우가 생겨납니다. 이때, 페이지 색인 문제가 나타나게 되는 것입니다. 그 이외의 경우도 많지만 이런 경우 그냥 나둬도 크게 문제가 되지 않습니다. 즉, 색인형성에 문제가 발생된 사이트를 하나하나 살펴볼 수 있는데 웹과 모바일 둘 다 등록되어 있는 경우가 아니라면 대부분 이와 같은 경우라고 생각하시면 되겠습니다. 

4. 크롤링 해제 방법

4-1. 사이트맵제출 및 색인요청

4-2.robots.txt에 의해 차단됨 해제 방법

이것으로도 되지 않은 경우, 자신의 블로그 주소 http://블로그주소/robots.txt를 입력하시면 자신의 robots.txt문구를 확인하실 수 있는데 해당 문구에 User-agent: Mediapartners-Google이 있다면 삭제해 주시면 됩니다. 모든 웹사이트가 그렇듯 뭔가 조치를 했다고 해서 바로 변화가 일어나는 게 아니라 시간이 걸리는 경우가 많기 때문에 여유를 가지고 기다리시면 될 듯합니다. 

저의 경우는 위 두 가지 모두 해당사항이 없어서 그냥 기다리기로 했습니다. 이런 경우가 여러 번 일어나다 보니 원리를 찾게 되고 왜 그런지 확인하게 되는데 자꾸만 확인한다고 해서 빨리 해결되고, 그렇지 않는다고 해서 늦게 해결되고 그러진 않더라고요. 티스토리를 하려면 역시 기다림이 미학이 아닌가 생각됩니다. 이런 거 연구 하는 것도 공부의 한 자세이긴 하지만 이런거 공부할 시간에 글을 하나 더 쓰는 게 현명하다고 생각됩니다.