Excelでt検定

t検定を実社会で役立たせる為に、Excel2000を使って操作をご紹介します。
先ずExcelでデータ分析が使えるようになっているでしょうか。

「ツール」から「アドイン」を選んで、分析ツールがチェックされているのを確認して下さい。

 
分析ツールが使えるようでしたら、分析してみます。
ここでは、2010年のワールドカップ日本代表とF1ドライバーの平均身長に差があるか検定してみます。

「ツール」から「分析ツール」を選んで「t検定: 分散が等しくないと仮定した2標本による検定」を選択します。(ウェルチのt検定)
どのt検定を選べばいいか判断が付かない時は、これを選んで下さい。 厳密な検定を要求される場合は、データが正規分布しているかをシャピロ・ウィルクなどで検定し、 分散が等しいか否かをF検定で判断して、その結果を見てからになります。これも外れ値が含まれていれば検定結果が変わってしまうので 必要性に応じデータクリーニングを行うなど、事前に沢山の事を要求されます。
厳密さを要求されない条件下では、パッと見で突出した外れ値が無くかつ正規分布するだろうの予測があれば、 スグにt検定を行っても大丈夫だと思います。

  「変数1の入力範囲(1)」では日本代表の身長が、「変数2の入力範囲(2)」ではF1ドライバーの身長が 指定されています。
「二標本の平均の差(H)」は、帰無仮説に影響するパラメータで何も入力しないか0を指定します。 「α(A)」は有意水準でデフォルト値の0.05か、任意の値を指定します。判断がつかない時は、両方ともデフォルトのまま 「OKボタン」をクリックして下さい。*Excelのバージョン等により違いがある事があります。
 
左表が結果になります。
2人のF1ドライバーの値が不明なので省いています。
薄緑色に色付けされた「p(T=t)両側」の値が、0.098777で、0.05より大きな値になっているで、 帰無仮説は、採用されます。
この時の帰無仮説は、「両者の平均は同じ」なので、 2010年ワールドカップ日本代表とF1ドライバーの平均身長は同じ。(平均身長に差があるとは言えない) となります。有意水準の0.05は、20回に19回はこの結論で間違いは無いが20回に1回は間違うかも知れない。 という確率を表しています。

GUIを使わずt検定

関数を直接タイプしてもp値とt値が出せます。
ExcelCalc(オープンオフィス)
p値=TTEST(日本代表,F1ドライバー,2,3) =TTEST(日本代表;F1ドライバー;2;3)
t値=TINV(p値,全データ数-2) =TINV(p値;全データ数-2)
downloadExcel Calc
関数を使う方法は、無料で使用できるオープンオフィスのCalcでも 使えます。CalcはWinodwsはもちろんLinux,MacOS,Solarisなどでも使えますので,OS間で共通性を持たす場合には、 有効な選択となります。
関数の違いはパラメータの区切り文字の違いだけで、Excelの「,」に対してCalcは「;」で区切ります。
TTESTはp値を求める関数で、第1引数と第2引数は、データを指定します。第3引数は、1で片側検定、2で両側検定になります。 ここでは両側を表す2を指定しています。第4引数は、検定の種類を指定しています。
  1. 一対の標本による平均の検定
  2. 等分散を仮定した2標本による検定
  3. 分散が等しくないと仮定した2標本による検定
TINVはt値を求める関数で、第1引数はp値です。第2引数は、全データ数から2を引いた数を指定します。 これは「自由度」と呼ばれる数値です。データ(標本)が2つなので2になります。

ここで使ったデータシートが上の表からダウンロード出来ます。
日本代表とF1ドライバーの平均身長が同じであっても、実生活にはあまり役立ちません。 無理に考えれば、トレーニングウェアなどの売り込みで持っていくサンプルは両者とも同じサイズでいいか、 ぐらいでしょうか。
改装前後での来客数など、意味のある値で是非試しみて下さい。

※分析結果をアクションにつなげる場合は、もう少し分析精度を上げるためにデータ数を増やす事をお薦めします。

メインメニュー