« [アクセス解析入門]アクセス解析で記録される情報 | Main | [アクセス解析の謎その2]カウンターとアクセス解析の結果が合わなくなる理由 »

2004.02.02

[アクセス解析の謎その1]Googleボット検索はなぜアクセス解析記録に残らないか

Earl Grey Tearoom:Google検索ロボットがこのページを見に来た日で、Googleが自分のサイトにチェックに来ているはずなのに、なんでアクセス解析結果にあらわれないのか?という疑問は、ちょうど私も持っていました。でもこの記事を読みながら何となく気づいたのですが、たぶんこのような理由だと思います。

まずアクセス解析の仕組みですが、私のサイトで使っているアクセス解析サービスでコピペするように指定されたhtmlの中を見ると、scriptタグとnoscriptタグが含まれており、noscriptタグの方には更にimgタグが含まれています。

つまり、このアクセス解析サービスでは、java scriptが使用可能ならブラウザのjava script機能を使って情報をサーバに送り、そこで記録する。そしてjava scriptが使用可能でない時はnoscriptタグの方が有効になるので、その時はimgタグを利用してアクセス解析サービスサイトのサーバ側でプログラムを実行させ、そこで情報を記録するようになっているようです(画像を読み込もうとしたときにプログラムが実行されるようにhtmlが工夫されています)。

二段階構成になっているのは、ブラウザ側でscriptを実行した方が詳細な情報が入手できるが、ブラウザの設定でscriptがOFFになっていときでも、最低限の情報を残せるようにという配慮だと思われます。

そして本題のGoogle検索ロボット(googlebot)の動きです。こいつはブラウザのふりをして書くサイトにアクセスしてくるわけですが、まず、ブラウザが独自に持っているscript機能がないということは十分考えられます。script機能をある程度サポートした方がより詳細なデータがとれるでしょうが、そこまではやってないのでしょう。次にnoscriptの時のimgタグですが、ご想像の通り、googlebotは画像データなんか興味なくて、単に無視されているのでしょう。ここでGoogleは画像検索サービスも持っているので、画像のチェックも行ってもよさそうなのですが、まったくアクセス記録が残らないところを見ると、それもやっていないようです。(noscriptタグの中にあるのがミソなのかも)

以上、おおよそ間違いないと思っていますが、予想でしかありませんたぶんあってます。

[2004.2.2追記]
今アップしたばかりでもう追記ですが、じゃあ、googleがアクセスしてきても全く何も残らないのかというと、そうではありません。ただしそれは、直接googlebotとhttp通信を行っているNiftyのココログを運営しているWebサーバ(アパッチ等)のログになります(私たちは見れない)。そこにgooglebotがアクセスした履歴が全て残るはずです。

[2004.2.21追記]
スパイダーが来たかどうかを調べるためのリンク(押さないでね)。

[関連する記事]
高機能アクセス解析ツールを試しています
[アクセス解析入門]アクセス解析で記録される情報
[アクセス解析の謎その2]カウンターとアクセス解析の結果が合わなくなる理由

[2005.3.4追記]
各種スパイダーがログに残す名前
googlebot(グーグルボット): もちろんGoogle
Yahoo! Slurp:         もちろんYahoo!
NaverBot(nhnbot):     韓国の検索サイト?
ia_archiver:           Internet Archive
msnbot:            もちろんMSN
Baiduspider:          中国の検索サイト?

ちなみにInternet Archiveはネット上のいろいろなサイトの更新履歴を残そうという試み。このやろう、しょっちゅう来るくせに、うちのサイトは約1年前のたった2ページしか保存してやしねえ。

|

「ウェブログ・ココログ関連」カテゴリの記事

「日記・コラム・つぶやき」カテゴリの記事

「SF・技術」カテゴリの記事

TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/14497/160882

Listed below are links to weblogs that reference [アクセス解析の謎その1]Googleボット検索はなぜアクセス解析記録に残らないか:

Comments

CGIに直接リファラーを解析するようにすると、
googlebotを拾うことができました。

きっと、画像は拾わないというのが正解でしょうか。

それにしても、かなり頻繁に訪れていますよ。
一日に数回も。

Posted by: pekoe | 2004.02.03 at 12:07 AM

pakeoさんトラックバックさせて頂きました。コメントどもです。

そんなに来ているんですか~。うざっ。と思ったけど、アクセス解析やカウンターの記録を汚さないんだから、別にいっか。

あれ、でもこのサイトのGoogleキャッシュは未だに古いものだから、うちにはたまにしか来ないのかな?それとものキャッシュの取得は数回に一度とか?まあ謎はつきないですね。

Posted by: カズヒロ(管理者) | 2004.02.03 at 12:35 AM

>Googleが自分のサイトにチェックに来ている
>はずなのに、なんでアクセス解析結果に
>あらわれないのか?という疑問は、
>ちょうど私も持っていました。

ぜんぜん考えたことなかった!!
blogっていろいろな人がいろいろなことを考えているのに触れることができて、ほんと面白いと思う。。。

Posted by: rie | 2004.02.03 at 01:39 AM

rieさん、それは俺(たち?)が単にマニアックなだけかもね(笑)

てゆうか、あ!!やばい事実を発見!
pakeoさんじゃなくてpekoeさんなんですね。。。
すいません!!
うちのサイトの半角英字フォント、小さくて分かりにくい。。いいわけですね。申し訳ないです!

Posted by: カズヒロ(管理者) | 2004.02.03 at 11:44 PM

Post a comment






[関連書籍等の紹介]