新シリーズ第11回 決定係数の意味

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。今回は、統計学で大変重要な「決定係数」のお話です。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦(学習院大学)

第11回 決定係数の意味

Q.回帰分析をすると決定係数という数字が出てきます。これは予測精度を意味すると理解してよいのでしょうか? 正直いってイメージがつかめないので、クライアントにどうレポートすればよいか悩んでいます。

A.(朝野先生)決定係数は回帰分析に限らず統計分析の本質にかかわる基礎概念です。決定係数の意味を理解しておけば、ユーザーが自分で決定係数を計算することもできます。今回は決定係数のイメージを説明しましょう。

■ あるスーパーでの清涼飲料の売り上げ

 本講座の第6回で使ったデータをここでも使います。清涼飲料について30日分のデータをとったという状況設定でした。次の3変数を用いた重回帰分析のモデルを①式に表わします。

image_01_10

 ①式のimage06 ,image06が説明変数で、image06 ,image_05_10はそれぞれの偏回帰係数です(注1)。なお分析データではimage06 ,image06の相関係数は0になっています。を定数項、eを残差(または誤差)と呼びます。データからc ,image06 ,image_05_10を推定すれば②式が得られます。ここでimage_05_10image_05_10の予測値です。説明変数に新しい値を与えてやれば売上の予測値を求めることができます。

image_08_10

■ 回帰分析は分散分析である

表1 分散分析表

平方和 自由度 平均平方 F値 有意確率
回帰 22671.9 2 11335.9 32.239 0.0
残差 9208.1 27 341.0
全体 31880.0 29

 回帰分析をすれば表1の内容が出力されます(注1)。けれども何のことか意味不明なので、このアウトプットを読みとばすユーザーも少なくないと思います。
 表1で色を付けた平方和の欄には、回帰はimage_05_10 、残差はe、全体はimage_05_10の二乗和が入ります。ただし各データからそれぞれの変数の平均値を引いた平均偏差データを二乗和しています。
 ですから平均偏差データベクトルをそれぞれimage_05_10 ,e ,image_05_10と書けば、3つの平方和の関係はベクトルの内積によって③式のように表されます。

image_11_10

■ 幾何学と回帰分析

 さて全体の平方和が2つの平方和に分解されることを幾何学的に示したのが図1です。

image_12_10

図1 ピタゴラスの定理

 内積の大きさを正方形の面積で表せば、その平方根をとることでベクトルの長さ(ノルムといいimage_05_10で表す)が求まります。 image_05_10です。それぞれ直角三角形の斜辺、底辺、高さを表すことになります。つまり図1はピタゴラスの定理または三平方の定理を表したものです。
ここで斜辺と底辺の比をとると売上とその予測値の相関係数image_05_10が求まります。幾何学的には相関係数はimage_05_10(コサインシータ)です。重回帰分析ではimage_05_10を重相関係数と呼びます。ベクトルの長さは非負ですし直角三角形は斜辺より底辺が長くなることはありませんので重相関係数はimage06の範囲になります。

image_18_10

 グラフに描くために角度θを求めましょう。Excel関数で =DEGREES(ACOS(0.843)) とすれば図1のθが32.5度であることが分かります(注3)。

 次に2つの正方形の面積の比をとったのが決定係数です。これは斜辺上の正方形の面積の内訳にあたるので、0.711とは71.1%であると解釈できます。もし利用している分析プログラムが決定係数を出力しなくても、決定係数は表1から手計算で求められます。image06の平方根が重相関係数です。つまり表1さえあれば決定係数と重相関係数は分かる、ということになります。

image_20_10

さて決定係数は何の71.1%なのかというと、③の等式の両辺をデータ数のn=30で割ることによって

売上の分散=予測値の分散 + 残差の分散

であることが分かります。ですから決定係数は売上の分散に占める予測できた分散の比率という意味になります。

この決定係数の概念は回帰分析以外にも出てきます。たとえば因子分析は

観測変数の分散=共通因子で説明できた分散 + 説明できなかった分散

と分解するモデルです。説明できた分散の割合を「共通性」といいます。分散分析が因子分析にも出てくるのです。このように決定係数は様々な場所で名前を変えつつ現れます。

■ 現象と統計モデル

 統計分析とは次のように情報を分解して、説明できた分散を増やそうとする行為に他なりません。

現象の分散=説明できた分散 + 説明できなかった分散

図2でいえば、ライトで照らされた面積を増やし、闇の部分を減らそうとすることが目標です。決定係数は照らされた比率を表す指標ですから、図2は決定係数が大きくなるように統計モデルを作ることの意味を表しています。もっとも決定係数が唯一の評価基準ではないので、決定係数さえ大きければ分析は成功だ、と断定するのは誤まりです。

image_21_10

図2 闇夜を照らす統計モデル

 たとえば説明変数さえ増やせば、決定係数は1.0に近づきます。けれども複雑すぎる統計モデルだと管理統制するのが困難になります。そこで表1に書かれた自由度でもって決定係数を調整しよう、というアイデアが出てくるのです。自由度は自由度でなかなか難しい概念ですので、いつか稿をあらためて説明しましょう。

【今回のまとめ】

  • 決定係数は観測値の分散のうち説明変数で説明できた割合を意味している
  • 決定係数は統計学の随所に現れる重要な概念である
  • 闇夜を照らすのが統計モデルの役割である

注1)説明変数が1つの場合を単回帰分析、2つ以上の場合を重回帰分析と呼びます。
注2)ここではIBM SPSS Statisticsという統計ソフトを使いましたがExcelやRを使っても同じ出力になります。
注3)θが0に近づけばcosθは1に近づきます。相関係数の変化とマッチしています。

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチの実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学、東京都立大学、首都大学東京教授、中央大学客員教授を歴任。学習院マネジメントスクール顧問。日本行動計量学会理事。日本マーケティング学会監事。「ビジネスマンがはじめて学ぶベイズ統計学」「マーケティング・リサーチ プロになるための7つのヒント」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
決定係数は回帰分析に限らず統計分析の本質にかかわる基礎概念です。決定係数の意味を理解しておけば、ユーザーが自分で決定係数を計算することもできます。今回は決定係数のイメージを説明しましょう。