Googleクローラーは3種類あった
前回の調査で、本サイトにロボット(クローラー)らしきアクセスが毎日1,500ビューあることが分かりました。このうち、毎日500PV分(4日間で2,077)がGoogle所有ドメインからのアクセスです。
図:Google Webmaster Toolのクローラーログ:
Google Webmaster Toolのクローラーログと比較
GoogleのWebmaster Toolsに自分のサイトを登録しておくと、クロールの回数や転送容量の推移を調べることができます。
図:Google Webmaster Toolのクローラーログ:
グラフのみで数字が公開されていないため、図の上にラインを引いて数値を割り出してみました。12/1~12/4の合計値は1,275PV。
66.249.65.*が検索エンジンのクローラーだとすると合計1,359PVなので、上記の1,275とほぼ一致します。
図:Google Webmaster Toolのクローラーログ:
残りの2種類のIPアドレスは検索エンジンクローラーではなく何なのか?生ログがあればAgent(ブラウザ)名で判別できるかもしれませんが、今回はCMS付きホスティングなので、IPしか分かりません。Whoisで調べると、どちらもGoogle所有です。
Google所有ドメインから3種類のロボットがアクセス
そこで、IPアドレスをGoogle検索してみたところ、
- 72.14.199.* は FeedFetcher-Google; (+https://www.google.com/feedfetcher.html)
- 74.125.44.* は FeedBurner
と名乗るロボットであることが分かりました。URLの情報を読むと、FeedFetcherはGoogleリーダー用のRSS取得クローラーであることが分かります。FeedBurnerは最近導入したRSS用のアクセス解析サービスです。PVが多いので、RSSの更新を検出するために頻繁にアクセスしているようです。4日間で592PVなので、1日あたり約150PVです。
分かったことのまとめ
- Google Webmaster Toolsのクローラーログは結構正確だった
- Googleロボットには少なくても検索エンジンのクローラー、Googleリーダーのクローラー、FeedBurnerのクローラーの3種類があった
- FeedBurnerを導入したところ、1日に150回RSSをクロールするようになった(本サイトでFeedBurnerに登録したフィードは6つ)
今回の分析はアクセスがまだ少ない本サイト、しかも4日間のみを対象としたので、分かった事実にあまり意味はないかもしれません。
ですが、いろいろな制約がある状況でも、仮説を立てて工夫しながら段階的に検証していけば、ある程度結果が見えてくる、というプロセスを実践した点で意義があるかもと思い、エントリーしてみました。