新シリーズ第1回「相関と回帰係数の落とし穴」

統計学の初心者がデータ分析をすると、いろいろ怪しい落とし穴に遭遇します。
特に統計指標を解釈するときに誤解が発生しがちです。というわけで「指標の意味」と「正しい解釈」を今回の講座の目標に掲げたいと思います。
初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげます。
今回は、意外と怖い「相関と回帰係数の落とし穴」のお話をしましょう。

やさしい統計学講座 ~教えて朝野先生~

新シリーズの狙い
これから数回にわたって統計学を使いこなすコツを紹介してリサーチにかかわる方々を応援したいと思います。統計学の初心者がデータ分析をすると、いろいろ怪しい落とし穴に遭遇します。特に統計指標を解釈するときに誤解が発生しがちです。というわけで「指標の意味」と「正しい解釈」を今回の講座の目標に掲げたいと思います。初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげます。

R&D技術顧問 朝野熙彦(中央大学)

第1回 相関と回帰係数の落とし穴

Q.今度、若手社員勉強会で「相関」について教えることになったんですよ。

A.(朝野先生)いいですね。では今回は、意外と怖い「相関と回帰係数の落とし穴」のお話をしましょう。

次の4つのコメントをご覧ください。ここでいう相関とは正確にいえばピアソンの積率相関をさします。

  • ①基準変数と相関が高い変数は重要な変数だ
  • ②相関が大きければ回帰係数も大きくなる
  • ③相関がゼロなら、2つの変数には関係がない
  • ④回帰係数の大きい変数は重要だ

この4つのコメントがすべて誤りだと理解している人は、この後の解説を読む必要はありません。

■相関と回帰係数の両方を見ないと・・?

図1は架空のデータですが、基準変数の売上とその説明変数の散布図です。左右のグラフはどちらも同じ単位で売上げをプロットしたもので、説明変数の尺度も左右同一だとしましょう。AとBは関東・関西というような地域の違いを表していて、それぞれの地域で多数のホテルを調査したとします。説明変数としては、たとえばサービス活動に対する評点尺度が考えられます。
相関係数はA)が0.959、B)が0.590でした。従って、A地域ではその説明変数が売り上げに重要な寄与をしているが、B地域ではそうではない、とコメントしていいのか?というのが最初の疑問です。

A地域では相関は大きいが回帰係数は小さく、Bは逆に相関は小さいが回帰係数はより大きくなっています。図中の直線は回帰直線で回帰方程式は下記の通りでした。

[A]ý=2.83+0.19χ
[B]ý=1.29+0.64χ

グラフ1

図1 相関係数が大きい方が重要な説明変数だとはいえない

[A]の式のxの前についている0.19が「回帰係数」であって、説明変数の値が1単位大きいホテルは売り上げが0.19高い値をとるという関係を意味しています。ですからA地域のホテルがその説明変数のサービスに注力して改善を図ってもホテルの売上はさほど向上しないでしょう。相対的に見ればB地域の方が説明変数の効果は大きいです。これで冒頭のコメント①と②についての結論が出ました。
図2は「相関と回帰係数がともに大きい」場合です。その回帰方程式は[C]ý=1.63+0.51χで相関係数は0.944でした。以上の3つのケースを比べると説明変数が重要なのはC、B、Aの順です。

グラフ2

図2 重要な説明変数

なおここでは地域A、Bとして市場反応の違いを比較しましたが、それだけではなくメーカー系列の違いや季節による違いや消費者セグメントによる反応の違いを比較することも調査ではよくあることです。

■相関がゼロなら2つの変数は無関係?

コメント③が誤りであることは図3を眺めれば明らかでしょう。図中の水平線は回帰直線です。

グラフ3

図3 説明変数が分かれば満足度がピタリと分かるケース

説明変数と満足度の関係は明瞭な山形をしています。ほどほどがイイネ、というような現象でしょう。観光地の来訪者数と気温の関係も山形になるかもしれませんね。寒すぎても暑すぎても人出が減るような場合です。昔から「相関関係は因果関係ならず」という警句が有名ですが図3の教訓は「無相関は無関係ならず」ということです。データの散布図も見ないでアウトプットされた相関係数の数値だけを見てコメントするのは危険です。

■回帰係数が大きい変数は重要ですか?

ある商品の販売数量が広告費(千円単位)と気温(℃)で、次の回帰式によって予測できたとしましょう。

販売数量=40×広告費+8×気温−10

この予測式で2つの説明変数に掛けられている40とか8というのが「偏回帰係数」です。しばしば偏を省いて回帰係数と呼ばれています。では、この回帰係数を比較して、広告費の方が気温よりも売り上げに重要な変数なのだと言えるのでしょうか?これが④の疑問です。仮に広告費を1円単位で入力して再分析すれば広告費の回帰係数は0.04に下がって気温の回帰係数よりも小さくなります。では気温の方が売り上げに有効だとコメントを訂正すべきなのでしょうか?
実はこの回帰係数の変化は次のような分母子キャンセルの影響ですので、わざわざ再計算しなくても係数は求められます。

FO-new01_05

2つの回帰式は同値ですから、予測値も決定係数もまったく同じです。そもそも金額と気温では次元も違うので大小を比べようもありません。というわけで、次元と単位の違いを解消する手立てとして、算出式の話は割愛しますが、分析データを標準化して標準偏回帰係数を計算しているのです。とかく見過ごしてしまう方がいますが、この係数は通常デフォルトで出力されています。たとえばIBMのSPSSでβ(ベータ)と表示されている指標がそれです。
つまり予測をするときには通常の回帰係数を利用し、重要性を比べる時は標準偏回帰係数を見る、というのがアウトプットの読み方のコツです。

【今回のまとめ】

  • 相関と回帰係数を併用して判断するとよい
  • 相関は直線的な関係の程度しか表わしてくれない
  • 相関のプロット図を眺めれば、間違った解釈がかなり防げる

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチ実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学教授、東京都立大学、首都大学東京教授を歴任。現在、中央大学客員教授、日本行動計量学会理事。「マーケティング・リサーチ プロになるための7つのヒント」「入門 多変量解析の実際」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
株式会社リサーチ・アンド・ディベロプメント