주제
- #검색엔진 최적화
- #IndexNow
- #Bing 크롤링
- #웹사이트 운영
- #robots.txt
작성: 2024-11-16
업데이트: 2024-12-13
작성: 2024-11-16 23:26
업데이트: 2024-12-13 16:28
Bing 로고
웹사이트를 운영하면서, Bing 에 대해서는 굉장히 골치 아픈 계륵이다.
물론 기본적으로 구글이라는 검색엔진의 트래픽이 제일 중요하니까 ( 시장 점유율 90%의 위엄 ) 구글에 최적화를 하고, 그 다음에 구글에 최적화한걸로 Bing이 "알아서" 잘 크롤링해 가겠거니 한다. ( 아무래도 마이너한 겨우 시장 점유율 3% 짜리에 크게 신경안쓰는것. )
물론 실제로는 IndexNow를 이용하여 네이버와 Bing에는 실시간으로 새로운 글이 올라왔을때 자동으로 알림을 보내고있으니 나는 할 수 있는건 다 하고 있긴 하다. ( 구글은 IndexNow를 지원하지 않는다. )
그리고, "표준 규약"을 생각해보면, 일반적으로 웹사이트들은 "robots.txt"라고 하는 기본 텍스트 포맷을 규정하고 그곳에 robots 에 관한 기본적인 데이터들을 기록해 둔다. 봇들에게 어떤 페이지를 크롤링하면 안되고, 어떤 봇들은 차단하고, 이 사이트의 "사이트맵"은 어디에 있다.. 라고 알려주는것이 그것이다.
당연히 두루미스의 경우에도 표준규약에 따라 robots.txt 를 꼼꼼히 기록해뒀다.
그런데, 뭐랄까.. Bing 은 좀 이걸 무시하는 느낌...?
내가 그런 페이지가 있다고 알려주지도 않은 www. 사이트들은 왜 모든 페이지를 시도하냐고...
Ok. 좋다. 백번 양보해서 www.durumis.com 은 그렇다 치자. 그런데, 각종 서브 도메인 온갖 페이지를 꼭 www. 를 앞에 붙여서 한번씩 크롤링 시도를 한다. ( 당연히 로드밸런서 로그에는 수도 없이 많은 404 가 찍히게 된다. )
알려주지도 않고, 실제 존재하지도 않는 "/atom.xml" , "/sitemap.txt" , "/sitemap.xml.gz" , "/sitemap_index.html" 은 왜 들어가는건데.. ( 이것도 엄청나게 많은 서브 도메인을 굳이.. 반복적으로 시도한다. )
검색을 해보니 우리 사이트만 그런게 아니라 다른 사이트들도 비슷한거 같다.
이런 부분에 대해 불만들을 표하는 내용들을 검색하니 많이 나오더라.
아니 그렇다고 IndexNow 가 잘 작동하는지도 잘 모르겠다. 요청을 하면 해당 페이지를 크롤링 하는데 오래 걸릴때는 4일까지도 걸리더라, (그나마도 몇개만 본거라 잘 크롤링 하는지도 잘 모르겠네.. )
검색의 출발은 크롤링에서 시작하고, 크롤링한뒤에 인덱싱을 하는 내용들이 있는데, 과연 잘 할려나 의심이 많이 간다.
( 정답은 점유율에 있지 않을까? )
우리 서비스 자체가 검색에도 많이 노출되기를 바라면서도 동시에 나도 검색기술에 관심이 많은데, 빙이 그렇게 하는게 정말 맞나 잘 모르겠다.
왜 한국에서는 사람들이 빙의 별명을 그렇게 부르는지 한번쯤 생각해 보기를... ( 굳이 욕은 안하겠다. )
댓글0