新シリーズ第6回「重回帰分析でさぐる要因のウェイト」

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。今回は、重回帰分析でさぐる要因のウェイトについてのお話です。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦(中央大学)

第6回 重回帰分析でさぐる要因のウェイト

Q.回帰分析で要因のウェイトはどうなのかとクライエントに聞かれました。アウトプットのどこを見て報告すればいいのでしょうか?

A.(朝野先生) 実務書ではまず取り上げていない危なっかしい問題ですね。具体例をあげてお話ししましょう。

■あるスーパーでの清涼飲料の売り上げ

 スーパーでは販売促進といってチラシを配ったりデモ販売をすることがあります。それだけでなく気温が高くても清涼飲料の売り上げは上がるかもしれません。
 では販促費と気温という2要因のウェイトをどう評価したらよいのでしょうか。清涼飲料について30日分のデータをとったという状況設定で説明しましょう。

 重回帰分析のモデルを書くと
FO-new06_01
 未知のパラメータである定数とb1,b2をデータから推定したうえで販促費と気温の数値を与えれば、売上が予測できます。パラメータのb1,b2は正式には偏回帰係数と呼ばれます。また要因のことを説明変数と呼びます。

■単純にパラメータの比をとってはならない

表1 相関係数
  Y 売上 X1 販促費 X2 気温
Y 売上 1 0.226 0.813
X1 販促費 0.226 1 0.0
X2 気温 0.813 0.0 1

3変数Y,X1,X2の相関係数が表1になる乱数データを作りました。次にIBM SPSS Statisticsという統計ソフトを使って表2のアウトプットを出しました。

表2 パラメータの推定値
モデル 非標準化係数 標準化係数ベータ t値 有意確率
B 標準誤差
(定数) -4.744 35.429   -.135 .894
X1 販促費(万円) 21.445 9.823 .226 2.183 .038
X2 気温(℃) 6.900 .878 .813 7.856 .000

表2のBの欄から次の予測式が得られます。FO-new06_02FO-new06_03の予測値です。

FO-new06_04

 クライエントは定数の-4.774にはさしあたり関心がなく、要因であるX1とX2のウェイト構成比を知りたいのですが、実は偏回帰係数の比をとっても意味ある構成比は得られません。

 偏回帰係数による販促費のウェイトは、表2から
FO-new06_05 と計算できます。同様の計算で気温のウェイトは24.3%になります。一見「販促費の方が有効だ」という結論が出たように錯覚しがちですがそれは誤解です。場合によってはパラメータに正負の符号が混在することがあり、その場合この計算では合計100%の構成比になりません。また、すべて正の符号だったとしてもデータの測定単位の影響を受けます。販促費を千円単位で入力すればX1のデータが一桁大きくなるので、パラメータは一桁小さくなり、予測式は③となります。

FO-new06_06

 こんどは販促費のウェイトは23.7%に変わります。販促費をドル換算で入力したり気温を華氏で入力するとそのたびに結論が変化します。偏回帰係数をもとに、要因のウェイトに関して一定の結論を導くことは不可能です。また、標準偏回帰係数の比をとる方法も考えられますが、こちらも正負の符合の混在などの問題もあり、安易に使うべきではありません。

■売上を決定づける分散寄与率を測る

表3 決定係数の出力
モデル R R2乗 調整済みR2乗 推定値の標準誤差
1 .843 .711 .690 18.46730

 重回帰分析自体が分散の分解なので、その延長として売上の分散を決定づける要因の割合をウェイトと定義するのは理にかなっています。 
 すべての分析データが標準化されているとして標準偏回帰係数をβ12と書きましょう。説明変数と残差の相関は0だと仮定できますし、説明変数どうしの相関も表1から0でした。すると売上Yの分散は④のように分解できます。標準化されたデータの分散はすべて1であり、残差の FO-new06_07 は表3から1-0.711として求められます。

FO-new06_08

 要するに売上の分散が、販促費に起因する分散0.051と気温に起因する分散0.660、そして重回帰分析のモデルでは説明できなかった残差分散0.289の3つの部分に分解されたのです。つまり売上げの分散を構成する3つの要因の比率が算定されたということです。

■グラフで表現

FO-new06_09

 図1は各要因の分散比(ウェイト)をグラフで示したものです。販促費と気温のウェイトを合計した71%が表3のR2乗の箇所に出力されている数値と一致しています。これを決定係数と呼びます。売上変動の71%までは回帰モデルで説明できた、という意味です。

 さらに分析に用いた説明変数の中で残差を除く要因だけでウェイトの構成比を計算して図解することもできます。たとえば気温のウェイトは④にもとづいて
FO-new06_10 と計算できます。これが通常、企業が知りたかった要因のセットの中でのウェイトなのでしょう。
 この例は人工的な数値例にすぎませんから結論を真に受けないでください。現実には販促活動に絶大な効果があって気温には微々たる効果しかない、というのが正しいかもしれません。

■予想される数々の疑問

  1. 1) 販促と気温以外にも売り上げを決める要因があるはずだ
  2. 2) ウェイトの評価はどこまで一般的にいえるのか
  3. 3) 残差って何だ
  4. 4) 気温と販促に相関があったらどうなる
  5. 5) ④式の計算の意味がわからない

【それぞれ順にお答えしましょう】

  1. (1) 要因が分かっているなら調査をしましょう。測定データさえそろえば、分析要因は増やせます。
  2. (2) 分析結果は分析データ次第で変わります。調査するスーパーや製品が変われば結論が変わるのはむしろ自然です。
  3. (3) 販促と気温以外のその他もろもろの変数の影響を総合した効果が残差だと考えてください。
  4. (4) 要因に相関があると④式のようにスッキリと分散が分解できません。相乗効果や相殺効果が出てくるからです。そうだとしても標準偏回帰係数の二乗をとることは分散構成比の近似解として一定の意味があります。
  5. (5) ④式の計算根拠については、統計のテキストを読んでください。たとえば、朝野熙彦編著「アンケート調査入門」東京図書で今回の問題を詳説しています。

【今回のまとめ】

  • 回帰分析は分散分析である
  • 要因のウェイトは要因で説明できた分散で表せる
  • ここで述べた方法は、総合満足度に及ぼすサービス評価と品質評価のウェイトを測定する、というようなリサーチ課題にも応用できる

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチ実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学教授、東京都立大学、首都大学東京教授を歴任。現在、中央大学客員教授、日本行動計量学会理事。「マーケティング・リサーチ プロになるための7つのヒント」「入門 多変量解析の実際」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
株式会社リサーチ・アンド・ディベロプメント