新シリーズ第7回「因子分析と主成分分析の混同」

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。今回は、混同されることの多い因子分析と主成分分析に関して、両者の違いについてお話します。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦(学習院大学)

第7回 因子分析と主成分分析の混同

Q.クライアントから因子分析と主成分分析は同じじゃないかと聞かれました。言われてみれば似ている気もしますが、どう答えれば良いのでしょうか?

A.(朝野先生) 何十年にもわたって繰り返されてきた疑問ですね。具体例をあげながら両者の違いを説明しましょう。

■年金に関する意識を因子分析する

 学生教育用に集めたデータを使って因子分析してみましょう。18歳~69歳男女500人を対象にした調査データです。分析に用いた変数間の相関行列を表1に示しました。意識変数X1~X3は5段階スケールで、年齢は実年齢で聞きました。

表1 相関行列
  X1 高齢者を皆で支援すべき X2老後の生活は苦しくなる X3人間努力すれば幸せになれる Age実年齢
X1 高齢者を皆で支援すべき 1.000 -.071 .180 .231
X2老後の生活は苦しくなる -.071 1.000 -.265 .001
X3人間努力すれば幸せになれる .180 -.265 1.000 -.104
Age実年齢 .231 .001 -.104 1.000

 ごく標準的な手順に従って、相関行列を分析対象にし⇒主因子解⇒固有値1以上で因子を打ち切り⇒バリマックス回転⇒アンダーソン・ルービン法で因子得点を推定⇒因子得点を保存します。すると図1の因子負荷量が得られます。
 横座標が因子1で、右へいくほどポジティブな意識を表しているようです。縦座標が因子2で上にいくほど高齢者を大切にする意識を表しているようです。「ようです」というのは因子の解釈に唯一の正解はないからです。実年齢が高い方向と、高齢者を皆で支援すべきという意識が似た方向であることから、高齢者は自分たちを支援すべきだと考える傾向が読み取れます。

回転後の因子負荷量
 なお保存した因子得点のデータを使って計算すると平均が0で、分散が1になっています。また2つの因子得点の相関は0なので直交解になっていることが確認できます(注1)。
 人間の意識は心理量ですから、変数間で比較可能な単位は存在しません。また5段階の評点と2桁の年齢では桁が違いますが、その違いにも本質的な意味はありません。ですから分散を比較する意味がないので相関行列を分析したのです。次に主成分分析で無理やり分散を表現してみましょう。

■年金に関する意識を主成分分析する

表2 分散共分散行列
  X1高齢者を皆で支援すべき X2老後の生活は苦しくなる X3人間努力すれば幸せになれる Age実年齢
X1高齢者を皆で支援すべき 1.346 -0.074 0.228 3.796
X2老後の生活は苦しくなる -0.074 0.814 -0.262 0.014
X3人間努力すれば幸せになれる 0.228 -0.262 1.194 -1.609
Age実年齢 3.796 0.014 -1.609 199.821

*表中の太字のセルには分散が、その他のセルには共分散という統計量が入ります。

 こんどは表2の分散共分散行列を対象にして⇒その固有値を求め⇒主成分係数を求め⇒主成分得点を求めていきます。固有値は第1主成分から順に199.506, 1.558, 1.033, 0.671 と4つ出てきます。第1主成分の寄与率が圧倒的に大きいので主成分は一つだけ、と判断してよいでしょう。
 ①は主成分得点を計算する式です。ここでは意識変数X1~X3と年齢は、それぞれ平均値を引いて平均偏差化しておきます。①の右辺に出てくる係数は主成分係数といって、分散共分散行列の固有ベクトルとして出力されるものです。主成分1と2をそれぞれPC1,PC2と略記しましょう。本当はPC2は不要なのですが検算の目的で書きました。

主成分得点を計算する式

 PC1とPC2の得点の分散はそれぞれ199.506, 1.558 になります。どちらも固有値と一致しますね。このケースでは第1主成分とは実質上年齢そのものであることが分かります。
 主成分分析は情報を少数の主成分に集約することを目的にした分析法なので、その主成分を回転してはいけません。回転したら主成分ではなくなるからです。また主成分分析には共通性や独自因子という因子分析特有の概念は存在しません。

■因子分析と主成分分析の違い

 図2にこの2つの分析法のロジックの違いを示しました。さらに相違点を表3に整理しました。以上から因子分析と主成分分析がまったく異なることは明らかでしょう(注2)。

図2 因子分析と主成分分析のロジックの違い

現像の背景を探る因子分析
現象の背後には潜在的な因子が存在する、というのが因子分析のモデルです。

総合指標に集約する主成分分析
主成分分析のモデルは複数の指標を集約するというものです。

表3 因子分析と主成分分析の相違点
  因子分析 主成分分析
分析の目的 潜在変数の推定 データの集約
分析データ 相関行列 分散共分散行列または相関行列
共通性、独自性 推定する 概念なし
軸の回転 回転することが多い 回転してはならない
係数の名称 因子負荷量 主成分係数
サンプルスコアにあたるもの 因子得点 主成分得点
サンプルスコアの分散 1.0 固有値の値

■混同が起きてしまった原因

 因子分析は心理学者が人間の知能を研究する中から生まれた測定モデルです。潜在変数などというややこしい概念が出てくるのはそのためです。一方、主成分分析は変数を重みづけ合計することで情報を集約したいという単純な目的で作られました。主成分分析は客観的な測定値が得やすい品質管理や医学の分野で多用されてきました。そういうわけで、因子分析と主成分分析はユーザーの出身も利用場面も異なる世界でそれぞれの分析法を使ってきたのです。そのため混同と誤用が発生してきたのです。
 さらに事態を混乱させてきた原因が一部の統計ソフトの作りこみにありました。たとえばあるソフトの場合、因子分析をするつもりで使っていても、解法のメニューをデフォルトで指定すると主成分分析に進んでしまう、というミスが起きるように作られています。
 もちろん、正しく指定すれば正しい分析結果が出力されますので、クリックを間違えたユーザーにも多少の責任があります。ここでさらに疑問が出てくるでしょう。

  • ①なぜ一つのメニューに違った分析モデルを同居させたのか?
     その答えは、かつてのソフトはコンピュータのメモリーが小さかった時代に開発されたという歴史にあります。プログラムを極力短くするために、アルゴリズム単位で統計手法をまとめてしまったのです。
  • ②同じアルゴリズムを使っているなら同じ分析法ではないか?
     それなら掛け算と足し算を使っている回帰分析と因子分析は同じ分析法なのでしょうか?固有値問題を解く統計モデルは主成分分析に限らずコレスポンデンス分析や重判別分析などたくさんあります。モデルが違えば分析法は違います。
  • ③では主成分分析を使う意味は何なのだろうか?
     分析変数が同一の尺度をしていて分散の違いが比較可能な場合に主成分分析の価値が出てきます。たとえばすべてがドル建ての貿易収支の国際比較、経年比較のデータとか、出荷トン数のデータをコンパクトに表現するような場合です。
    あえて因子分析と主成分分析の共通点をあげるなら、分析変数には尺度の単位が存在しなければならないこと、つまりすべて間隔尺度以上でなければならない、というくらいのものです。

(注1)プログラムにもミスはありうるので検算が必要です。なお主成分得点の分散を1に変換してしまう統計ソフトがあります。その場合はユーザーが得点に固有値の平方根を掛けることで、正しい主成分得点に直すことができます。
(注2)因子分析と主成分分析の数理については朝野熙彦(2012)「マーケティング・リサーチ」講談社の2章で詳述しています。

【今回のまとめ】

  • 因子分析と主成分分析はまったく別の分析法です
  • 一方が正しいというわけではなく、両者それぞれに利用価値がある
  • ユーザーは分析モデルの意味を理解する必要がある

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチ会社に就職。マーケティング・リサーチの実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学、東京都立大学、首都大学東京教授、中央大学客員教授を歴任。学習院マネジメントスクール顧問。日本行動計量学会理事。日本マーケティング学会監事。「ビジネスマンがはじめて学ぶベイズ統計学」「マーケティング・リサーチ プロになるための7つのヒント」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
株式会社R&D(リサーチ・アンド・ディベロプメント)