第2回「クラスター分析」ってなあに?

「クラスター分析」のCLUSTERとは「ぶとう、さくらんぼ、藤などの房」のこと。要するに小さなものがたくさん集まって、大きなものになっている時の構成要素を指します。爆弾の一種にクラスター爆弾というものがありますが、これは・・・

「クラスター分析」のCLUSTERとは「ぶとう、さくらんぼ、藤などの房」のこと。要するに小さなものがたくさん集まって、大きなものになっている時の構成要素を指します。
爆弾の一種にクラスター爆弾というものがありますが、これはひとつの大きな爆弾の中に数百から数千の子爆弾が詰まったものです。
 

リサーチの世界のクラスター分析は、市場をいくつかのセグメントに分ける時に多く使われる分析手法で、階層的クラスターと非階層的クラスターの2つがあります。階層的クラスターは、まず個々のサンプル(ヒト)をひとつのクラスターと考え、それを近いものから併合していき、最終的にひとつの(全サンプルで表わされる)集団にまとめあげます。(下図参照)
 

一方、非階層的クラスターでは、分析者が予め作成するクラスター数を指示します。その数を目標にしてデータの中から特定の割合でランダムに選ばれたデータに階層的クラスター分析を行い、与えられたクラスター数になったところで、今度は先の分析に使われなかったデータを様々な形で出来上がったクラスターにくっつけていくということを行います。結局、階層的クラスターが根本にあるわけです。
 

一口に階層的クラスターといっても、近い遠いを測るモノサシの違いや、あるモノとあるモノをくっつける基準(アルゴリズム)の違いで、何十通りもの解法があります。モノサシは「ユークリッド距離(普通のモノサシで測れる距離)」と「マハラノビスの汎距離」という何やら得体の知れないものの2種がよく使われます。アルゴリズムは最近隣法、最遠隣法、重心法、ウォード法が一般によく使われます。困ったことに、ソフトウェアパッケージにより翻訳がまちまちで、別のソフトウェアを使っている2人が、自分の使っているアルゴリズムの長所に関して激論を戦わせたあと、英文を読んだら実は同じアルゴリズムだったという笑い話もあるほどです(ホントかな?)。いろいろな参考書のほとんどが推奨しているのがウォード法なので、とにかく「やってみよう」と思った時はこのアルゴリズムを使うのがいいでしょう。
 

マーケティングリサーチの世界では扱う変数、サンプルが共に大きいことが多く、このように単純にクラスタリングができることはむしろ少ないため、多くの変数でクラスタリングを行うときは、事前に主成分分析や因子分析で少数の変数にとりまとめることがよく行われます。この辺のことは、また機会があれば触れたいと思います。
 

階層的クラスターの変種(実は同じモノですが)に、「変数のクラスタリング」があります。これは言葉の示すとおり、「ヒト」を分類するのではなく「変数(またはアイテムやカテゴリ)」を分類するものです。
上手に使うことによって、沢山のイメージワードを減らしたり、評価項目を半分にすることができるはずです。ともすれば大部になりがちな調査票ですが、こうした研究を取り入れることで対象者の負担を軽減することが、リサーチャーの義務のひとつであると考えます。

(出典:朝野煕彦著「入門 多変量解析の実際」)

階層的クラスターと非階層的クラスターの違いをまとめた図

関連するサービス

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
クラスター分析-統計学について。R&D(リサーチ・アンド・ディベロプメント)は生活者インサイトに強い市場調査会社。お客様の課題に最適なリサーチをご提案。会場調査・ホームユース等の定量調査からグループ・インタビュー等定性調査まで幅広い手法に対応できることが強みです。