主題
- #検索エンジン最適化
- #IndexNow
- #robots.txt
- #Bingクロールリング
- #ウェブサイト運営
作成: 2024-11-16
作成: 2024-11-16 23:26
Bingロゴ
ウェブサイトを運営していて、Bingについては非常に悩ましい存在だ。
もちろん基本的にGoogleという検索エンジンのトラフィックが最も重要なので(市場占有率90%の威厳)、Googleに最適化し、次にGoogleに最適化したものがBingが"勝手に"うまくクロールしてくれるだろうと考えている。(マイナーな市場占有率3%のサービスにはあまり気にしない。)
実際にはIndexNowを利用して、NaverとBingには新しい記事が投稿された際にリアルタイムで通知しているので、できることは全てやっている。(GoogleはIndexNowをサポートしていない。)
そして、"標準規約"を考えると、一般的にウェブサイトは"robots.txt"という基本的なテキストフォーマットを規定し、そこにロボットに関する基本的なデータを記録しておく。どのページをクロールすべきではないか、どのロボットをブロックすべきか、このサイトの"サイトマップ"はどこにあるか…などを知らせるものである。
当然、ドゥルミス(durumis)の場合も標準規約に従ってrobots.txtを丁寧に記録しておいた。
ところが、何となく…Bingはそれを無視しているような気がする…?
私がそのようなページがあると教えていないwww.サイトはなぜ全てのページを試みるのか…
Ok。良い。100歩譲ってwww.durumis.comはそうだとしよう。しかし、様々なサブドメインのあらゆるページに必ずwww.を前に付けてクロールを試みる。(当然ロードバランサーのログには無数の404が記録される。)
教えていないし、実際には存在しない"\/atom.xml"、"\/sitemap.txt"、"\/sitemap.xml.gz"、"\/sitemap_index.html"にアクセスするのはなぜなのか…(これも非常に多くのサブドメインを何度も試みる。)
調べてみると、私たちのサイトだけでなく、他のサイトでも同様のようだ。
このような不満を表す内容を検索すると、たくさん出てくる。
IndexNowがうまく機能しているのかもよく分からない。リクエストすると該当ページをクロールするのに時間がかかり、最大4日かかる場合もある。(それでもほんの一部しか確認していないので、うまくクロールしているのかも分からない…)
検索の出発はクロールから始まり、クロールした後にインデックスを作成するのだが、果たしてうまくいくのだろうか、非常に疑問に思う。
(答えは占有率にあるのだろうか?)
私たちのサービス自体も検索に多く表示されることを望んでいるが、同時に私も検索技術に興味がある。Bingがそのような方法をとるのが本当に正しいのかどうか、よく分からない。
なぜ韓国ではBingのあだ名をそう呼ぶのか、一度考えてみるべきだろう…(あえて悪口は言わない。)
コメント0