データを結び付けている要因を探る クラスタリング
因子分析と似た分析方法にクラスタリングがあります。どちらもデータを淡々と分析して、「これとこれは似ているよ」と教えてくれるものです。
コンピュータは、データ的に近いもの選んでくれるだけですので、 データを結びつける本質みたいなものは人が見て意味付けするところも、因子分析と共通しています。
因子分析が相関関係から類似性を見つけていくの対して、クラスタリングはもう少し複雑で いろいろな分析方法を選べます。
大きくは「階層的」「非階層的」で分かれるのですが、 その後も、重心法、最短距離法,平均連結法など、多くのバリエーションがあります。
イメージとしては、コンピュータ内で仮想的にデータをプロットして、その距離の遠近で 似ている似てないを出していますが、そのプロットの仕方や距離の測り方の違いで、 いろいろな分析方法、バリーエーションがあるといったところでしょうか。

上表は統計局で公表している平成21年度の「産業,資本金階級別研究関係従業者数,社内使用研究費,受入研究費及び社外支出研究費(企業等)」 から、産業別のサマリとパラメータを抜粋したものです。(社内使用研究費には、原価償却費が含まれて居ます。)
産業・企業規模、開発費でのクラスタリングになります。
金融業・保険業は、業界全体の売上高等が欠損値となっておりましたので、 今回は、産業規模を表す重要な数値の欠損として分析から外しています。
14のグループにクラスタリングした結果です。
第1グループ |
石 油 製 品 ・ 石炭製品製造業 電子部品・デバイス・電子回路 製造業 |
第2グループ | 情 報 通 信 業 |
第3グループ |
鉱 業 , 採石業 , 砂利採取業 金 属 製 品 製 造 業 は ん 用 機 械 器 具 製造業 生 産 用 機 械 器 具 製造業 そ の 他 の 製 造 業 電 気 ・ ガ ス ・ 熱供給・水道業 |
第4グループ |
輸 送 用 機 械 器 具 製造業 自動車・同附属品 製 造 業 |
第5グループ |
学術研究,専門・技術サービス業 サービス業(他に分類されないもの) |
第6グループ | 卸 売 業 |
第7グループ | 医 薬 品 製 造 業 |
第8グループ |
化 学 工 業 業 務 用 機 械 器 具 製造業 電 気 機 械 器 具 製 造 業 その他の電気機械器具 製造業 |
第9グループ | 情報通信 機械器具 製 造 業 |
第10グループ |
総 合 化 学 工 業 学 術 ・ 開 発 研 究 機 関 専門サービス業(他に分類されないもの) |
第11グループ |
食 料 品 製 造 業 鉄 鋼 業 通 信 業 情 報 サ ー ビ ス 業 |
第12グループ |
建 設 業 運 輸 業 , 郵 便 業 |
第13グループ |
農 林 水 産 業 繊 維 工 業 パルプ・紙・紙加工品製 造 業 印 刷 ・ 同 関 連 業 油 脂 ・ 塗 料 製 造 業 そ の 他 の 化 学 工 業 プ ラ ス チ ッ ク 製品製造業 ゴ ム 製 品 製 造 業 窯 業 ・土 石 製 品 製 造 業 非 鉄 金 属 製 造 業 電子応用・電気計測器 製造業 その他の輸送用機械器具製造業 放 送 業 インターネット附随・その他の情報通信業 技術サービス業(他に分類されないもの) |
第14グループ | 製 造 業 |
*k-Meansという非階層型の方法で分析しています。
グループの数は分析時に指定しています。
各グループの平均は下表のようになります。

下は同じ分析ですが、グループ数を減らしています。
大きく全体を掴みたいと時は少なめにして、例えば 7のグループにクラスタリングした場合はこうなります。
第1グループ |
農 林 水 産 業 鉱 業 , 採石業 , 砂利採取業 繊 維 工 業 パルプ・紙・紙加工品製 造 業 印 刷 ・ 同 関 連 業 総 合 化 学 工 業 油 脂 ・ 塗 料 製 造 業 そ の 他 の 化 学 工 業 石 油 製 品 ・ 石炭製品製造業 プ ラ ス チ ッ ク 製品製造業 ゴ ム 製 品 製 造 業 窯 業 ・土 石 製 品 製 造 業 非 鉄 金 属 製 造 業 金 属 製 品 製 造 業 は ん 用 機 械 器 具 製造業 電子部品・デバイス・電子回路 製造業 電子応用・電気計測器 製造業 その他の輸送用機械器具製造業 そ の 他 の 製 造 業 電 気 ・ ガ ス ・ 熱供給・水道業 放 送 業 インターネット附随・その他の情報通信業 学術研究,専門・技術サービス業 学 術 ・ 開 発 研 究 機 関 専門サービス業(他に分類されないもの 技術サービス業(他に分類されないもの) |
第2グループ |
医 薬 品 製 造 業 化 学 工 業 生 産 用 機 械 器 具 製造業 業 務 用 機 械 器 具 製造業 電 気 機 械 器 具 製 造 業 その他の電気機械器具 製造業 |
第3グループ |
建 設 業 食 料 品 製 造 業 鉄 鋼 業 通 信 業 情 報 サ ー ビ ス 業 運 輸 業 , 郵 便 業 サービス業(他に分類されないもの) |
第4グループ |
情報通信 機械器具 製 造 業 輸 送 用 機 械 器 具 製造業 自動車・同附属品 製 造 業 |
第5グループ | 製 造 業 |
第6グループ | 卸 売 業 |
第7グループ | 情 報 通 信 業 |
各グループの平均は下表のようになります。

この結果から何か読み取れるでしょうか。
7グループでクラスタリングしても、単独でグループ化される産業に 何か突出したもの、特徴的なものが見えてくるでしょうか。
クラスタリングのように、データを分析して 生のままのデータでは気づかなかった事柄を発見することをデータマイングと呼んでいます。
顧客サービスの差別化などの場面でもクラスタリンクが行われていますが、
それぞれを結び付けている背景や本質を見抜かないと、 適したアプローチやサービスに結びつける事は出来ません。
パレートの法則、8対2の法則に則っている対象があれば、 この分析方法でうまく見つけ出すことが出来るかもしれません。