データの性質 俯瞰

データの分析は、データの特性を知った上で分析手法を選んで行います。
データの特性を知るには、グラフなどで視覚化して俯瞰するやり方が適しています。

相関 散布図 時系列

身長と体重のように何かとの関連性を分析する場合、散布図にしてみると一目瞭然です。
○○会社の売上げ、株価のように単独で成り立っているようなデータの場合、 横軸を時間にして散布図にしたものが時系列のグラフとなります。
注)前者と後者では散布図としては同質ですが、 分析方法などは全く異なります。
左図のように、X値が決まればY値が決まる。もしくY値が判ればX値も判る。 そのような関係を、強い相関関係があるといいます。

右図のような散布図では、片方の値が決まれば片方の値も決まる、 とは言い難いが全く無関係でもなさそうな場合は、弱い相関関係があると言えます。
この散布図は、統計の学習によく使われるあやめの花びらとがく片のサイズを グラフ化したものです。
パッと見で、左下に固まっているグループと、そうでないグループに分かれてるように見えないでしょうか。
これは種類の違うあやめを一緒に分析してしまっているので、特性がグラフに出てしまっているからです。
例えば、1回あたりの購入金額と年間の購入回数などで散布図化すると、 小額だけど何回も買ってくれるグループと、 回数は少ないけど大きな買い物をしてくれるグループなどに分かれたりします。
年功序列型の会社で、勤続年数と給与を散布図化すると強い相関関係で直線的になったりします。

時系列の場合は、時間との相関と言うよりは、周期性やトレンド、ノイズ成分などを 見ていきます。

正規分布 標準偏差 パラメトリック ノンパラメトリック ヒストグラム 度数表

ヒストグラム(度数表)も、一見でグループの特性を掴めるグラフです。
ヒストグラムでは形状に注視します。
左図は、正規分布と言われている整った山型のグラフです。
これは山の真ん中が平均となっていて左右バランスよく分布しています。
テストの点数を表したグラフであれば、平均点を取った人が一番多く、高得点を取った人も低得点だった人も 同じような割合で居た事を示しています。
よく標準偏差という数値を見かけると思いますが、統計ソフトや表計算のデフォルトで算出される標準偏差とは、このバランスの取れた正規分布を元にしていて、 平均を0としてグラフの68.26%の面積になるよう左右にメモリをふったところが標準偏差1になります。 平均が50点で、40~60点を取った人が全体の68.26%なら、標準偏差1は±10になります。
通常デフォルトで表示される標準偏差は、この標準偏差1です。
注)分布や標準偏差などのデフォルト値はソフトによって違いますので、 正確にはお使いのソフトをご確認下さい。
同じように95.45%で標準偏差2、99.73%で標準偏差3、99.999997%で標準偏差6になります。

Webのレスポンタイムのようなデータは、正規分布していませんので、通常の平均値や標準偏差、もしくは分散といった数値を出しても、あまり意味を持ちません。 右のヒストグラムも、正規分布していません。
海外に工場持つ会社の賃金や、乳幼児の死亡率が高い発展途上国の寿命などは、こんな感じのグラフになります。この場合も、このままでは平均や標準偏差などにあまり意味はありません。
これを一見して判るのは、山が2つに分かれている事です。双方型などと呼ばれる形です。
このような形状の場合は、違うグループが混じっていると考えて分けて分析します。

自然界のデータは正規分布している事が多いのですが、ビジネスや実生活で目にするデータは 必ずしもそうでないケースを多く目にします。
一般統計量などは正規分布を前提にしていますので、 もし分布形状を確認されていなければ、 一度グラフ化してみることをお薦めいたします。
正規分布はパラメトリックと言われ、そうでない分布はノンパラメトリックと呼び、 分析手法も違ってきます。

データの分布 分析手法

データをご自身で分析する場合も、提出された数値を判断する場合にも、 データ特性を把握しておく事は非常に重要な事です。
分布を見極める事で、ポワソンやワイブルなど他の分布をベースにした より適した分析手法を選択することも出来ます
どの分布にあてはまるか、適正を見る計算式があるのですが、そこまで専門的でなくとも、 グラフを見ることで、直感的に判断し助言を求める事も出来ます。
グラフ化は多少の手間が掛かりますが、手間以上に得るものも多いと思いますので、 是非お試しになって下さい。

メインメニュー