主题
- #robots.txt
- #Bing爬蟲
- #網站管理
- #搜尋引擎最佳化(SEO)
- #IndexNow
撰写: 2024-11-16
撰写: 2024-11-16 23:26
Bing標誌
在經營網站的過程中,Bing 就像個讓人非常頭痛的雞肋。
當然,基本上來說,Google 搜尋引擎的流量最重要(市佔率 90% 的霸氣),所以我們會針對 Google 進行最佳化,然後就假設 Bing 會"自動"很好地抓取已針對 Google 最佳化的內容。(畢竟,對於市佔率只有 3% 的小眾市場,不太會太在意。)
當然,實際上我們是使用Index Now來通知 Naver 和 Bing 有新的文章發布,所以該做的我都做了。(Google 不支援 Index Now。)
此外,從"標準規範"來看,一般網站都會規定一個名為"robots.txt" 的基本文字格式,並將關於 robots 的基本數據記錄在其中。它會告知機器人哪些頁面不應該抓取、哪些機器人應該被封鎖,以及這個網站的"網站地圖"在哪裡。
當然,Durumis 也按照標準規範仔細記錄了 robots.txt。
但是,說起來…Bing 有點無視這個規範的感覺…?
我根本沒有告知 Bing 有哪些頁面,為什麼它要嘗試所有 www. 網站的頁面?…
好吧,就算 www.durumis.com 是這樣,那為什麼它還要嘗試所有子網域的各種頁面,而且都在前面加上 www.?(當然,負載平衡器日誌中會記錄無數的 404 錯誤。)
為什麼要存取我根本沒有告知,而且實際上也不存在的 "/atom.xml"、"/sitemap.txt"、"/sitemap.xml.gz"、"/sitemap_index.html"?(它還會反覆嘗試大量的子網域…)
搜尋了一下,發現不只有我們的網站有這種情況,其他網站也一樣。
搜尋後發現很多人都抱怨這方面的事情。
而且,Index Now 是否正常運作我也很懷疑。發出請求後,有些頁面需要很長時間才能被抓取,甚至長達 4 天!(而且我只看過幾個,所以也不知道它抓取是否正常…)
搜尋的開始是從抓取開始的,抓取後會進行索引,但我真的非常懷疑它是否能正常運作。
(答案可能在市佔率吧?)
雖然希望我們的服務能在搜尋結果中獲得更多曝光,但我本人也很關心搜尋技術,所以我不確定 Bing 這樣做是否正確。
為什麼韓國人會給 Bing 這樣的綽號,值得好好思考一下…(我就不罵髒話了。)
评论0