グーグルボットは URL を予測してクロールするのか?

グーグルの Web マスター向けの動画に、次のような質問とその答えが掲載されていました。

質問は 「site.com/page1.html と site.com/page2.html が存在する場合に、クローラが site.com/page3.html の存在を想定して、それをクロールしに行くかどうか?」ということです。

この質問の回答以上に、グーグルボットの URL とコンテンツの収集方法について、なかなか面白いことを説明していました

まずひとつめは、あるコンテンツをあらわすのに一番すっきりした(きれいな) URL を選ぶために、複数のパラメータが存在するような場合には、いくつかパラメータを落とした上でリクエストを行い、同じコンテンツが変えれば、もっともシンプルなバージョンの URL を採用するのだそうです。

二つ目は、フォームの中に、例えばドロップダウンがあるようなとき、クローラはそのドロップダウンの値をどれか選択して、要求を行い、よりたくさんのコンテンツを引き出そうとするのだそうです。

その他については、もとの記事をご覧下さい。

グーグルはクロールする際に推論アルゴリズムを適用するのか?