WebログOLAP

WebログOLAPへのリンク

●アクセスログの分析サービスです。デモもありますので試してみて下さい。

Webシステム解析

Webサイト分析例(pdfファイル)

●商用サイトのWeb分析を対象にデータマイニングの紹介をしています。 2004年版ですがデータ分析の本質は、時間の経過に関わらず同じです。Webデータ、販売データなどからデータマイニングを考える際の参考にして下さい。

アクセスログ分析

サイトへのアクセス経路

・サイトへのアクセス経路は3つに大別できます。

  1. 上図右側の1の経路は、お気に入りなどから直接辿ってきた訪問者です。これにはロボットも含まれています。
  2. 2の経路は、他のサイトやメールのリンクなどから辿ってきた訪問者です。
  3. 3の経路は、検索エンジンからの経路です。この経路はたまたま興味のあるキーワードで辿り着いた訪問者だけでなく、入力した検索キーワードでお目当てのサイトが検索される事を知っている常連の訪問者も含まれています。
直帰率やリピート率などを求める時に、このような経路やユーザタイプ分けが出来ていないと あまり意味のない分析結果になってしまいます。
1の経路の直接型の訪問者は、更新状況だけを見て何も更新されていなければ直帰してしまいますが、これは特に問題の無い直帰です。
ところが3の経路で検索エンジンから偶然やってきた訪問者が直帰してしまうのは、 少し問題です。ただしこの場合も、データ分けをしないと常連さんや全く無関係のキーワードでやってきた訪問者が混じってしまいます。
このように事前のデータ整備が精度の高い分析には大変重要になりますが、 あまり細部まで突き詰めても労力の割りに思ったほどの分析結果や 精度向上になかなか結びつきません。 そうかと言って何も考えずに分析しても意味のない数字しか出てきません

費用対効果を考える上でも、データの特性を理解して、 どのような分布割合になっているかをデータ俯瞰をして全体傾向を把握しましょう。
どの程度ノイズ成分が混じっていて、それは無視できる程度の割合なのか、 それとも全体像を歪めてしまうほど多く混じっているのか、最低限見極めなければなりません。

分析前のデータ俯瞰は、とても大切です。

アクセスログのフォーマット

・Apacheのログ(combined型)は一行がおよそ次のように9のパートで構成されています。
  1. IPまたはホスト名
  2. 未使用。クライアントの アイデンティティ
  3. 認証ユーザ。HTTP認証使用時にユーザ名が入る
  4. アクセス日時
  5. リクエスト
  6. どのページを閲覧されたかが判る。pdfのような大きなファイルがアクセスされた場合、 何回かに分けてリクエストされるので、同じ行(ログ)が連続する可能性が高い。
  7. HTTPステータス
  8. 200が正常、 304はページ更新なしなのでデータ量0でブラウザのキャッシュが閲覧されている、など。
  9. データ量(バイト数)
  10. リファラ
  11. 直前のページ(サイト)何処のページ(サイト)から来たが判る。
  12. ブラウザ情報
  13. ブラウザやOS情報、ロボットなども判別できる。
※詳しくはApache関連の資料を参照して下さい。

一つ目の経路、検索エンジンからの訪問は、リファラを見ると判ります。 "http:///www.booble.co.jp?q=検索キーワード"のような記述になっています。 urlの次に"?"マークで区切られたパラメータが並んでいて、 その中に検索キーワードも入っています。
パラメータに使われる記号は検索エンジンによって違いがありますので、 パラメータをさらに分割する時には注意が必要です。
二つ目の、他のサイトのリンクなどからの訪問は、"http://www.○○○.co.jp/○○.html"のように 他のサイトのurlが記述されています。 自サイトの他のページから来た場合は、"/page1.html"のようになっています。
三つ目の、お気に入りなどからの訪問は、リファラの記載がありません。(ハイフンのみなど)

優良な検索サイトからのロボットはIPアドレスからも判別可能ですが、 合わせてブラウザ情報も確認すると判別精度が高まります。

このアクセスログのテーブルだけでも十分な分析が出来ますが、HTTP認証と顧客情報、 キャンペーンやWebサイトリニューアルのようなイベントカレンダー、 問い合わせや売上げのようなデータと連携させると、 より高い分析目標にも応えることが出来ます。

※アクセスログを、特に拡張なしでDB化するだけでも分析のバリエーションは グンと向上します。是非試してみて下さい。




 

メインメニュー