- 2021.09.1
データ分析の花形クラスター分析-全体と部分の傾向は同じではない-
■データ分析でよくある間違い
世論調査でよく国民全体の○○%が賛成、反対といった集計結果をよく耳にします。しかし、この結果をそのままうのみにしてしまうことは危険です。一つ一つの質問に対する比率は確かに正しいのですが、全ての人が全ての質問に対して多数意見を投じたわけではないからです。
ある質問に対して多数意見だった人のうちの多くが別の質問では多数意見ではない回答を選んでいるということがあり得るのです。仮に女性のペーパードライバーが多いとすれば、運転免許証を持つ人に対して「交通違反したことがありますか」という質問に対して「ない」という多数意見の回答をする一方で、「車にどのくらいの頻度で乗りますか」という質問に対しては「全く乗らない」という少数意見の回答を得ることになります。
■設問集計だけでは見誤るアンケート回答者の思い
上記の例では先に回答者にペーパードライバーが多いということがわかっていましたが、実際の調査ではどんな人が答えているかがわかっていないことの方が普通です。顧客満足度調査では質問ごとに好ましい回答が多いからといって安心するのではなく、好ましくない回答をした少数派に重要なグループが入っていないか確認しないといけません。まだ付き合いの浅い顧客からの評価が高く、長いつきあいの大切な顧客が不満足を持っているかもしれないのです。自社のことを大切に思ってくれる顧客ほど、是々非々で答えてくれるものです。
■品質不良の原因もランキング下位に注意が必要
部分を見ることが重要であることは品質管理や営業管理といったデータ分析でも同じことが言えます。品質不良のランキング下位の原因が最近発生した機械故障の兆候かもしれません。
売上集計のランキング下位の企業の金額が少なくても最近になって頻度が増えている有望客かもしれません。
■全体を構成する部分を見つけるクラスター分析
こうした全体の中から構成する部分見つける統計学の手法がクラスター分析です。クラスター分析はAI人工知能でも活用されており、不良品の自動判別や、有能客・危険客の自動判定といった応用事例もあります。残念ながらクラスター分析はExcelに機能実装されていません。RやSPSS、EXCEL統計といった統計ツールを利用することになります。
■次のメジャーになるマイナーを見つけるトレンド分析
もう一つ、全体の中の部分に注意すべき理由があります。今まで少数派だったグループが徐々に多数派と入れ替わっていく変化―トレンド―が起きているかもしれないからです。
一部の不満足顧客、まれな不良原因など、定期的に全体を構成する部分ごとの比率の変化を追いかけておくことも、変化の激しい現代においては不可欠と言えるでしょう。