数値・データの見方・分析

データの分析には、誰がやっても同じような結果が出せる普遍性が求められます。 第三者が見て何故その数値になったのか検証出来る事が適正性につながります。 その為には標準化した手順が必要になります。

■母集団の平均・区間推定
・サンプリングから全体を推測する方法です。 視聴率などが有名ですが、 数台のクライアントPCを調べて全体を推測する場合などに応用できます。
サンプルの標本割合(平均)を、どの程度信用していいのか?  95%信頼するには、いくつ±すればいいのか?を算出します。
●サンプル数と平均が判っている場合【母標準偏差が既知でサンプルが大きい場合】
・平均値±1.96×√平均値(1-平均値)/サンプル数
・表計算だと、=平均値±1.96×sqrt( (平均値*(1-平均値)) /サンプル数)となります。
3000世帯で11.2%の視聴率の場合は、平均値に 0.6【=1.96*sqrt( (0.112*(1-0.112))/ 3000 )】を ±して、10.6%~11.8%が母集団の視聴率として95%間違いない、となります。
※1.96は正規分布表からで、母集団が正規分布する場合に、 母集団の平均値を10.6%~11.8%として5%は間違うリスクはあるが、 95%は間違いないとする為の定数です。99%の信頼度を得るためには、2.326を使用します。
●自らサンプリングする場合【母標準偏差が未知で、サンプルが小さい場合】
・平均値±2.262×√標本分散/サンプル数
・表計算だと、=平均値±2.262×sqrt( var(サンプルのセル全部)/サンプル数 )となります。
例としてサンプルのPCから送信されたメールの回数が23,7,18,4,32,14,8,3,5,12だとします。 平均値は12.6なので、12.6±6.7【2.262×√var(23,7,18,4,32,14,8,3,5,12)/10)】で、 5.9~19.3回が全社のメールの平均送信回数として95%間違いない、と言えます。 この例では少し幅が広すぎるので、このような結果になった場合には、 サンプル数を増やすか営業や技術部など部門を限定するなどするとよいでしょう。
※2.262はt分布表からで、自由度が9(サンプル数-1)のものです。
※実際のメールの送信回数は正規分布しない場合もあります。

■はずれ値
観測値の中に中央値や平均値から飛びぬけて外れている値が、ごく少数混じる場合があります。 データを正しく分析するには外れ値も含めなくてはなりませんが、 平均など母集団の性質を表現する場合には邪魔になる場合があります。 このような例でよく出される数値に給与があります。 ごく少数の高額所得者が平均を上げてしまうのです。 仮に平均値で社会保険などの負担額を決めてしまうと、 高めの平均値になっているので、ほとんどの人には不利になってしまいます。 このような場合には、外れ値を例外として取り除きます。
レスポンスタイムなどは、ほとんどの値が似たような値になるのですが 幾つかが極端に遅くなる場合があります。 これは障害に属する数値で、しきい値などを決める場合は、 これを取り除かないと大き目のしきい値になってしまいます。
上記の自らサンプリングする場合も仮に最大値の32を取り除くと 10.4±5.3で5.1~15.7で幅が狭まります。 PCに必要なパフォーマンスを知る場合など、一部のヘビーユーザを 取り除いた方が望ましい結果を得られます。
外れ値は全体から乖離しているものになるのですが、絶対的な数式は無く、 観測対象や何を分析したいのかにより決めて行きます。 データの分析では外れ値検出の優劣が分析の優劣につながるケースが多くあります。

■はずれ値を除外した例
Webのレスポンスタイムを実際に観測した例です


メインメニュー