グーグルボットは URL を予測してクロールするのか?
|グーグルの Web マスター向けの動画に、次のような質問とその答えが掲載されていました。
質問は 「site.com/page1.html と site.com/page2.html が存在する場合に、クローラが site.com/page3.html の存在を想定して、それをクロールしに行くかどうか?」ということです。
この質問の回答以上に、グーグルボットの URL とコンテンツの収集方法について、なかなか面白いことを説明していました。
まずひとつめは、あるコンテンツをあらわすのに一番すっきりした(きれいな) URL を選ぶために、複数のパラメータが存在するような場合には、いくつかパラメータを落とした上でリクエストを行い、同じコンテンツが変えれば、もっともシンプルなバージョンの URL を採用するのだそうです。
二つ目は、フォームの中に、例えばドロップダウンがあるようなとき、クローラはそのドロップダウンの値をどれか選択して、要求を行い、よりたくさんのコンテンツを引き出そうとするのだそうです。
その他については、もとの記事をご覧下さい。
⇒ グーグルはクロールする際に推論アルゴリズムを適用するのか?