新シリーズ第19回 潜在クラス分析

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。今回は、「潜在クラス分析」です。「クラスター分析」との違いもお話いただきました。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦

第19回 潜在クラス分析

Q.潜在クラス分析という名前をときどき目にしますが、ネットで調べても解説がバラバラで悩んでいます。この分析はどういう目的で使えばよいのでしょうか。クラスター分析も似たような方法だと思うのですが、両者の違いも教えてください。

A.(朝野先生)潜在クラス分析の原案は明確でしたが、その後さまざまな変種が派生してきました。そのため違った解説が出てくるのです。マーケティング分野での応用例があまりないことも理解を難しくしています。乱数を分析したテキストもありますが、乱数では実感がわきません。そこで今回は本当の調査データを使って、基本的な潜在クラス分析の実際を見てもらいましょう。

■ そもそも潜在クラスとは何か

 潜在クラス分析を提案したラザースフェルト(1950)の思想を一言でいえば次のようになります。

社会の根底には異質集団がある。もし人々の意識や態度の間に連関が見られたとしても、それは集団のために生まれたのかもしれない。我々が真に知りたいことは表面的な現象ではなくその背後に潜む集団である。

 まず潜在クラスの意味について次の3点を理解してもらいたいと思います。

  1. クラスの数がいくつなのかを分析前に知ることはできない。そこで、統計的な基準を用いて事後的に決めることにする。
  2. 階層とか階級というと「セレブ」~「プチセレブ」~「一般人」というような順序づけられたクラスをイメージしがちだが、潜在クラス分析はクラス間に序列があることを前提にしない。
  3. 分析してもクラスは潜在的な概念のままであり顕在化するわけではない。そもそも分析の手続きが、個々のサンプルをどこかのクラスに仕分けていくという仕組みになっていない。サンプルを上手に分割する方法だという解説をネットで見ることがあるが、それは誤解である。

 この3.については、サンプルを分割した調査を見たことがある、という質問が出るかもしれません。それは各サンプルの「回答パターン」を手掛かりにして確率が相対的に高いクラスにサンプルを便宜的に振り分けたためです。他のクラスよりも帰属確率が高いことと、個々のサンプルがクラスのどれか一つに確実に入っていることとは意味が違います。

■ 調査した質問項目

 コミックをネットで閲覧する人の意識を調べました。全国の男女合計1000サンプルのインターネット調査を行いました。

質問1 写真はプリントしてアルバムに貼っておきたい
1 はい 2 いいえ
質問2 クレジットカードでの決済に抵抗がない
1 抵抗がない 2 抵抗がある
質問3 携帯ゲーム機で遊ぶのが好きだ
1 好き 2 嫌い
質問4 ネットで漫画を購読したいですか
1 購読したい 2 雑誌で読みたい 3 漫画は読みたくない
質問5 娯楽でのWEB閲覧時間
1 毎日1時間以上 2 それ未満

 ラザースフェルトはYESかNOかの2値反応をモデル化したのですが、質問4のように、多数の選択肢から1つを選ぶ質問でも構いません。また意識項目に限らず質問5のような生活行動の質問でも構いません。クロス集計をして分割表を作れることだけが潜在クラス分析の適用条件になります。

 回答者は1000人ですので、分析データは1000行5列のテーブルに整理できます。表1はその一部です。表1では英字やローマ字で回答カテゴリー名を入力しましたが、回答選択肢の番号1,2,・・をそのまま入力してもまったく問題ありません。

表1 分析データ(最初の10人分)

PHOTO CARD GAME SUBSC WEB
NO USER NO NO LIGHT
NO NON NO NO HEAVY
ALBUM NON FAN SUBSC LIGHT
NO NON NO SUBSC LIGHT
NO USER NO PAPER HEAVY
ALBUM NON NO PAPER LIGHT
NO NON NO PAPER HEAVY
NO NON FAN NO HEAVY
NO NON NO NO HEAVY
ALBUM NON NO NO HEAVY

■ 分析の実行

 潜在クラス分析が実行できるソフトはMplusなど複数ありますが、ここではフリーソフトのRを使ってみました。今回はcomicdataというCSVファイルを読み込みましたが、Excelファイルから直接Rにインポートすることもできます。図1の2行のコードを実行するだけで分析が実行できます。なお#以下のコメントは省略しても構いません。


図1 潜在クラス分析のRのコード

  • # 潜在クラス分析
  • # パッケージpoLCAをインストールする
  • # 分析データcomicdataをインポートする

f2 <- cbind(PHOTO,CARD,GAME,SUBSC,WEB)~1  #潜在クラス分析にかける変数を指定する
comic.lc2 <- poLCA(f2,comicdata,nclass=2,maxiter=3000,nrep=100)  #2クラスの場合


 poLCA関数の引数は、分析変数、分析データ、クラス数、反復回数の上限maxiterで、最後のnrepはモデル推定の回数です。実行ボタンをクリックすると表2の数値がアウトプットされます。表2の読み方ですが、たとえば赤字の0.430は、潜在クラス1の消費者が写真をプリントしてアルバムに貼ることを好む確率は0.430である、という推定値を表しています。


表2 潜在クラスの確率とクラス別反応確率

潜在クラス1 潜在クラス2
潜在クラスの確率 0.442 0.558
写真をプリント アルバム 0.430 0.502
いいえ 0.570 0.498
クレジットカード決済 抵抗なし 0.142 0.228
抵抗がある 0.858 0.772
携帯ゲーム 好き 0.855 0.217
嫌い 0.145 0.783
ネットで漫画を購読 購読意向 0.009 0.097
雑誌で読む 0.192 0.495
読みたくない 0.799 0.408
WEB閲覧 1時間以上 0.386 0.628
それ未満 0.614 0.372

図2 潜在クラスの確率

図3 潜在クラスによる反応確率の違い

■ アウトプットの解釈

 図2と3から、市場は2つのクラスからなり、消費者が帰属する確率は潜在クラス2の方が確率0.558でやや大きいことが分かります。このクラスは漫画をサブスクリプションする確率が0.097で潜在クラス1の約10倍です。潜在クラス2はコミックが好きで、趣味でWEBを閲覧する時間の長いクラスです。
 一方潜在クラス1は携帯ゲームで遊んでいる確率が高いことから、市場はゲーム好きかコミック好きかで2分されることが分かります。
 というわけで漫画配信の事業社としては市場へのマクロな理解を深めることができるでしょう。

■ クラスター分析との違い

 潜在クラス分析では、調査サンプルの1人1人がどのクラスに入るかを確定することはできません。
 もちろん各サンプルが潜在クラスに入る可能性について何も分からないわけではありません。1人1人の5つの質問への回答結果は分かっているのですから、表2の情報を使って、各クラスの反応確率の積(これを尤度と呼ぶ)を求めて、どちらのクラスの方が尤もらしいかを判定することはできます。決定論的ではないが確率論的な推論はできる、という意味です。
 一方で従来のクラスター分析も、厳密にいえばクラスター帰属について疑問がないではありません。各クラスターの重心近くのサンプルと、クラスターの境界近くに位置するサンプルが、全く同じ確からしさでそのクラスターに所属しているのか?といえばそうはいえないでしょう。このようなクラスター内の個人差はクラスター内分散として計算されます。ですからクラスター帰属の問題は伝統的なクラスター分析も潜在クラス分析も50歩100歩ではないでしょうか。
 one-to-oneマーケティングへの応用可能性については注意が必要です。一般消費者をどうやってクラスターないしクラスに識別できるかは、現実の世界でのデータの利用可能性と識別可能性が本質的な問題です。one-to-oneマーケティングは、調査データの解析という閉じた世界の中で済まされる問題ではないことに留意してもらいたいと思います。

■ クラス数の判断

 プログラムでクラス数を何通りかに指定しながら分析して、次の情報量基準を比べて値が最小のクラス数を選ぶことがよく行われています(注1)。

  • AIC(2): 6745.737
  • BIC(2): 6809.538

とはいえ、AICとBICで結論が違ったらどうするかとか、本当にわずかな差でも情報量基準でクラス数を決めていいのか、などの疑問があります。AICとBICだけでなく自由度修正済みの適合度指標R2(T)も参考にすべきで単一の指標だけで結論づけてはならないといわれています。この辺の事情は30種類以上の指標のある共分散構造分析(SEM)のモデル選択と似た悩みだといえましょう。

■ いくつかの応用

 潜在クラス分析を提唱したラザースフェルトは第2次世界大戦の復員兵の意識を分析するために潜在クラス分析を開発しました(注2)。
 日本で潜在クラス分析の数理をきちんと紹介したのが渡辺(2001)でした。そこで挙げられた応用例は「スーパーの店舗イメージの分析」でした。調査したイメージ項目は、品揃え、品物の質、駐車の容易さ、サービス、価格の5項目で反応はすべて「はい」か「いいえ」の2値でした。
 また豊田(2006)は広告案への評価、衣料用洗剤のニーズ・セグメント、バニラアイスの製品開発の例を示しています。里村(2010)は一定期間内の購買頻度がポアソン分布に従って発生すると仮定した特殊なモデルを紹介しています。その他、学術的な研究では、ブランドロイヤルなセグメントを分析したものや幼児の発達段階を分析した研究などがあります。
 どのようなケースに潜在クラス分析を利用するのが適しているのかはまだ限定できない段階だと思います。少なくとも復員兵のための分析法だとか、スーパー専用の分析法だというような、過去の適用にこだわった思い込みは的外れだろうと思います。たとえば、多重ロジスティック関数は虚血性心疾患の医学研究のために開発されたモデルですが、今日では金融リスクの予測モデルとして一般化しています。潜在クラス分析も今後マーケティングの一般的な分析法にならないとは言えません。

■ 疑問点へのまとめ

1)潜在クラス分析とクラスター分析の違い
 両者は入力と出力で離散情報と連続量が反対に入れ替わっていることに注意してください。

潜在クラス分析 クラスター分析
入力データ カテゴリーからの択一という離散的な情報 因子得点などの連続量*
アウトプット 所属確率・反応確率という連続量 サンプルの所属クラスターという離散的な情報
クラスの概念 潜在的(latent ) 顕在的(manifest)

 *クラスター分析の使い方は多種多様です。因子分析ではなく主成分分析、コレスポンデンス分析などもクラスター分析の前段階で利用されています。

2)潜在クラス分析のメリット・デメリット
 もし調査の目的が集団を知ることにあるとしたら、因子分析⇒クラスター分析というアプローチよりも潜在クラス分析の方がショートカットです。因子の選択で原データの情報を失うこともないし、調査データがカテゴリーでよいことも潜在クラス分析の利点だといえましょう。しかも本稿の事例でも分かるように、運用の手間とコストはごく僅かです。特にデメリットもないのですから、潜在クラス分析でどのような知識が得られるか試してもよいかもしれません。

3)質問文の作り方
潜在クラス分析は探索的な分析法なので分析項目は何でもよいのです。しかし因子分析と同様にある程度の仮説をもって質問文を作った方がよいでしょう。具体的には、あらかじめ市場に集団を想定し、その集団の違いが識別できそうな質問項目を考える、という配慮です。逆に全員がYES、あるいはNOと答えるような項目はカットすることも大事です。

4)ボリューム面の配慮
 コンピュータ内で高次の連関を求める仕組みのため、分析項目数と選択カテゴリーの数が増えると解が求まらない危険があります。データが1件も存在しないテーブルが発生するからです。これをスパースなデータと呼びます。少数の分析項目から出発して徐々に項目を増やして推定するという手段があります。抜本的にはサンプル数を増やすのが正解です。

5)クラスの属性をどうやって知るか
 潜在クラス分析の基本は「反応の分析」です。しかし利用者としては各クラスがどういう性別・年齢などの属性と関連しているのかを知りたくなるのは当然です。潜在クラス分析では属性情報を分析変数に加えることで、そのようなユーザーの要求に答えることができます。

 (注1)AICは赤池の情報量基準、BICはベイズ情報量基準の略で、いずれも統計モデルの不適合度を表す指標として利用されています。データとモデルの不適合を表していることから、いずれも値が小さなモデルの方が適切だ、と評価します。
 (注2)アメリカの戦争省情報教育局による陸軍の復員兵の戦争神経症や再就職の調査データを用いた社会心理学的な研究。1950年の刊行物が潜在クラス分析の原典である。

【引用文献】

  1. Lazarsfeld, P.F. (1950) The logical and mathematical foundation of latent structure analysis, Stouffer,S.A. et al. (Eds,)”Measurement and Prediction”, Princeton University Pressd,362-412.
  2. 渡辺美智子(2001)因果関係と構造を把握するための統計手法-潜在クラス分析法-、岡太彬訓・木島正明・守口剛編「マーケティングの数理モデル」朝倉書店
  3. 豊田秀樹編(2006)「購買心理を読み解く統計学」東京図書
  4. 里村卓也(2010)「マーケティング・モデル」共立出版

2019年10月18日

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチの実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学、東京都立大学教授、多摩大学および中央大学客員教授を歴任。学習院マネジメントスクール顧問。日本マーケティング学会監事。「入門多変量解析の実際」「ビジネスマンがはじめて学ぶベイズ統計学」「マーケティング・リサーチ プロになるための7つのヒント」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦