データの本質を探る手法 因子分析

ご存知の通り物事には沢山の側面があります。人もいろいろな顔を持っています。
一つのデータとして観測できるのは、一つの側面だけです。
野球などでは、ホームラン、打率、打点、盗塁など多くのデータがありますが、 それらの数値が表しているバッターとは、どんなバッターなのでしょうか。
沢山のデータからデータの関連性でグルーピングする手法に因子分析というものがあります。

上表は2010年6月5日のセ・パ両リーグの打率上位者10人づつのデータを抽出したものです。 これを元に因子分析例をご紹介いたします。
この因子分析は、変数の相関関係を見て関係の強い順にグルーピングしてくれます。
*上表と、下の第一因子図、第二因子図はクリックすると大きく表示されます。

左図は第一因子で、横軸は表と同じく "安打","二塁打","三塁打","本塁打","打点","得点","三振","四球", "死球","犠打","犠飛","盗塁","出塁率","長打率","得点圏"です。
本塁打、長打率、打点、三振ぐらいまでが抜き出て見えます。
このグループはパワーヒッター系の因子でしょうか。


次は第二因子です。四球、出塁率が突出しています。これは巧打者系の因子でしょうか。
因子分析では、数値を見て関係の強さでグルーピングするだけです。 このグループを結び付けている本当の要因、物事の本質みたいなものは分析者が想定して意味づけをします。
単に因子1とか因子2でもいのですが、それでは只の数値になってしまいます。 なかなか難しいのですが、実生活に役立てるには解釈・センスといったものが データを見る人に求められます。

第一因子(パワーヒッター系?)を横軸に、第二因子(巧打者系?)を縦軸にプロットするとこうなります。


画面の都合で字が重なってしまっているところがありますが、 大体の感じは読み取れますでしょうか。
打率の高い20人の選手ですので全員巧打者なのは間違いないと思いますが、 その中でもタイプが分かれているのがグラフに表れてます。
近いところに居る選手は似た要因があって近くにプロットされています。
その選手、グループの本質、共通要素みたいなものを読み取って下さい。 分析そのものは、コンピュータがあって手法さえ知ってれば誰でも出来ますが、 ここから先のデータの解釈は、野球そのものの理解が深い人、 その道に長けた人に解釈してもらった方が、 ずっと理解し易くスマートな解釈になる事が多いからです。
今回は打者データでしたが、売上高、経常利益、総資本、従業員数、研究開発費などなど、 会社のデータでも同じようにグルーピングされ、 成長性や収益性などの共通的な要因を読み取る事が出来ます。

この分析も多重回帰分析と同じように、なるべく相関が弱いパラメータを選んだ方が モデル信頼度が高まります。

*2010年6月5日 データを変更して再分析しました。

メインメニュー