第5回「解法による違い?」

第4回までの連載では、概念的なことを中心に述べてきました。今回は視点を変えて、実際にデータを分析して、解法による結果の違いがどの程度出るのかを見てみることにします。 解法がたくさん存在することで有名なのが、第2回にとりあ・・・

第4回までの連載では、概念的なことを中心に述べてきました。今回は視点を変えて、実際にデータを分析して、解法による結果の違いがどの程度出るのかを見てみることにします。

解法がたくさん存在することで有名なのが、第2回にとりあげた「クラスター分析」と第3回にとりあげた「因子ー分析」です。誌面の制約がありますので、今回は「クラスター分析」をとりあげます。使用するデータは都道府県別の交通事故件数、殺人件数、犯罪発生率、自殺者数です。いづれも全国平均を100とした指数を用います。
クラスター分析をする際に重要なのは、①類似度または距離の選択②クラスター合併のアルゴリズムの2点です。
 

「類似度または距離」に関しては、ご多分にもれず様々な主張がされてきています。多変量解析ソフトの一方の雄である「SPSS」では、ユークリッド距離の他に、平方ユークリッド距離、コサイン、ピアソンの相関、チェビシェフ、都市ブロック、ミンコウスキーの7つの選択肢があります。(有名なマハラノビス距離は違う名前になっているのでしょうか?)


一方の雄、SASでは[CLUSTER」プロシージャではユークリッド距離のみです。それぞれの距離(類似度)の提唱者にはそれぞれの言い分が(当然)あるわけですが、マーケティングの分野では、それぞれの言い分に耳を傾けるよりは、もっと基本的なこと、すなわち変数間の単位の違いを無くす、とか、変数の基準化を行なうか否かと言ったことに気を遣うほうが実際的だと思います。ただし、経験的にはこの選択をどうするかが結果に及ぼす影響はアルゴリズムの選択以上に影響してくるように思えます。


ここでは、色々な距離(類似度)についての特性については詳しく述べることができません(筆者の能力が足りないのが大きな理由)ので、ひたすら理解しやすい「ユークリッド距離」を用います。


2点目の「クラスター合併のアルゴリズム」についても提唱者それぞれの声高な主張があるのは当然ですが、ここでは主張に耳を傾けるのではなく、それを使うとどうなるのかを紹介するにとどめます。


まず、どんなアルゴリズムがあるかです。


この連載でたびたび「参考文献」とさせてもらっている「入門多変量解析の実際」には、最短距離法、最遠隣法、メジアン法、群平均法、重心法、ウォード法が名称として紹介されています。


前述したSPSSのマニュアルには「グループ間平均連結法」というのがでてきますが、たぶん群平均法と同一と思われます。(他の文献によると「重み付き群平均法」というのもあるらしい)原文が英語のケースが多く、訳語がまちまちになるのが「クラスター分析」に限らず、日本の多変量解析の現場に悪影響を及ぼしていると思います。しかし、これはまた別の話です。


前置きが長くなりました。図に示したのは、冒頭で紹介したデータを「ユークリッド距離」で階層的クラスターを2種類のアルゴリズムで実行したものです。(使用したソフトはSPSS)


第2回に推奨したウォード法と群平均法と思われるグループ間平均連結法の結果です。双続き方ともよく使われるアルゴリズムですので、大きな違いはありません。(もっと違う結果もあるのです!)5クラスターで見たときに、「違うな」と思うのは、各クラスターに属する個体の数が、ウォード法のときに最もバランスが良くなるということでしょうか。


この例の場合でも、ウォード法が18:6:5:11:7に対して、群平均法では30:2:5:2:7になっています。ここにはあげていませんが、最短距離法はもっと極端な結果が出ることで知られていて、クラスター分析にはほとんど使われませんが、これを逆手に取り、異常値(異端)検出の道具にすると便利だという話もあります。


今回の結論は多変量解析においては、クラスター分析に限らず、「どんな状況でも最良という手法は存在しない」ので、いろいろと試すことも重要。試す(研究する)時間のないときは「ユークリッド距離」で「ウォード法」を用いることにする。というふうに決めておく。ということでしょうか。


データはその都度変わっていきます。データごとにやり方を変えていたのでは経験の蓄積にはならないのです。


参考文献

『入門多変量解析の実際』朝野煕彦 1996

『工業における多変量解析』奥野忠一他1986
『SPSS for Windows Professional Statistics』エス・ピー・エスエス株式会社

ユークリッド距離で階層的クラスターをウォード法によって実行したデンドグラム
ユークリッド距離で階層的クラスターをグループ間平均連結法によって実行したデンドグラム

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
解法-統計学について。R&D(リサーチ・アンド・ディベロプメント)は生活者インサイトに強い市場調査会社。お客様の課題に最適なリサーチをご提案。会場調査・ホームユース等の定量調査からグループ・インタビュー等定性調査まで幅広い手法に対応できることが強みです。