グーグルボットは URL を予測してクロールするのか？

グーグルの Web マスター向けの動画に、次のような質問とその答えが掲載されていました。

質問は 「site.com/page1.html と site.com/page2.html が存在する場合に、クローラが site.com/page3.html の存在を想定して、それをクロールしに行くかどうか？」ということです。

この質問の回答以上に、グーグルボットのＵＲＬとコンテンツの収集方法について、なかなか面白いことを説明していました。

まずひとつめは、あるコンテンツをあらわすのに一番すっきりした（きれいな） URL を選ぶために、複数のパラメータが存在するような場合には、いくつかパラメータを落とした上でリクエストを行い、同じコンテンツが変えれば、もっともシンプルなバージョンの URL を採用するのだそうです。

二つ目は、フォームの中に、例えばドロップダウンがあるようなとき、クローラはそのドロップダウンの値をどれか選択して、要求を行い、よりたくさんのコンテンツを引き出そうとするのだそうです。

その他については、もとの記事をご覧下さい。

Web/DB プログラミング徹底解説ブログ