新シリーズ第3回「統計的有意性とp値」

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。
今回は、p値の利用と解釈についてのお話です。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦(中央大学)

第3回 統計的有意性とp値

Q.最近、p値を使うなという声明が出て、世界の統計ユーザーに衝撃を与えているそうですが、どういう趣旨なのでしょうか。有意性検定はするなという意味ですか。

A.(朝野先生) アメリカ統計学会(ASA)が2016年3月7日に発表した声明のことですね。有意性の意味を誤解した応用研究が多すぎる状況にASAもついに業を煮やした感じですね。
 同学会ではp値の利用と解釈について6つの原則を示しました。ここでは実務的で分かりやすいポイントに絞って解説しましょう。

■予備知識:有意水準とp値のおさらい

 まず有意水準とp値の違いから説明しましょう。ネイマン・ピアソンの検定とは次のようなものでした。まず帰無仮説FO-new03_01とその対立仮説FO-new03_02を宣言します。図1はFO-new03_01に従う検定統計量の確率分布です。単純な例をあげますと

FO-new03_03
FO-new03_04

次に有意水準α(5%など)を設定して両側検定なら分布の両端にFO-new03_05の確率の棄却域を定めます。片側検定なら分布の一方だけに確率αの棄却域を定めます。αは帰無仮説が真であった時に真の仮説を棄却してしまう過誤の上限値を意味します。そして調査データから導かれた検定統計量が棄却域に入れば、それほど稀な現象が起きるのはおかしいとして、その帰無仮説は捨てようというのが伝統的な検定のロジックでした。
 統計学の研究者からは、このロジックに対して古くから2つの批判がなされてきました。その一つは、図1でグレーをつけた棄却域の確率(昔は危険率と呼んでいました)を5%とか1%に設定することに科学的な根拠がなく恣意的だという批判です。第2に、検定の結論がYESかNOの2分法なのは粗すぎないか、というものです。たとえば図1で検定統計量がぎりぎり棄却域に入った場合も余裕をもって入った場合も「どちらも有意」で済ますのはおかしいだろう、という批判です。

FO-new03_06

 そこでデータから検定統計量を求めて、その検定統計量よりも大きい(あるいは小さい)値が生じてしまう理論上の確率をp値として、p値だけをレポートするやり方が出てきました。図2は仮に検定統計量が標準正規分布に従うとして、データから得られた検定統計量が2.2だとすればp値は0.0139(つまり1.39%)になる、という図解です。両側検定ならその2倍の0.0278です。こう書けばFO-new03_12と書くよりも厳密です。
 p値だけなら有意水準αを宣言することなく有意確率を報告することができます。コンピュータがp値を計算してくれるので、昔のように統計数値表と見比べる必要はありません。そのため学会ではp値を報告することが一般的になったのですが、調査業界ではなぜか伝統的な表記法が今日まで続いてきました。

FO-new03_07

さてここからがASAの表明の解説です。

■本当に知りたい確率は出てこない

P-values do not measure the probability that the studied hypothesis is true.(原則2)
 本当に知りたい仮説の正しさを示す確率は分からない、という指摘です。たとえば新製品は従来品よりもダイエット効果が優れているというのが、開発担当者が証明したい本当の仮説だったとします。しかし検定ではあえて「両者は等しい」という帰無仮説を立てて、それをデータで否定しようとする背理法をとります。
 帰無仮説が否定された場合は対立仮説が正しいとするのですが、問題はその対立仮説の確率モデルが評価されないことにあります。
 ネイマン・ピアソンの検定論の存在意義は帰無仮説を棄却することだけにあります。一方で帰無仮説が棄却できなかった場合は、2つの製品の効果が等しいと積極的に証明できたわけではありません。帰無仮説が棄却できなかった場合は「結論は保留」というのが結果の正しい解釈です。このことを仮説検定の非対称性といいます。

■p値だけを見て結論を出さないこと

 原則3は、Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.というものです。

FO-new03_08

 実は、この注意は今回のやさしい統計学講座の第1回で私が指摘したことと同じです。図3の回帰分析は、あるマーケティング変数(たとえば広告活動)と市場シェアの関係を示したものです。100個のデータから推定した回帰方程式がFO-new03_09だったとしましょう。回帰係数のp値はほぼ0です。つまりこの回帰方程式は高度に有意だということになります。では、この活動に注力することがマーケティング戦略として有効だと結論していいのかね?というのがASAの指摘です。
 図3の横座標の値を1目盛り改善するのに1億円かかるとしましょう。それでシェアが0.01%上がるとして、それは投下費用に見合った成果だと言えるのですか?出稿費用や販促経費などの費用対効果を考慮した上で調査のコメントをつけましょうね、というもっともな指摘です。

■目安として使用するのはOKです

 このようにp値の情報にも限界はありますが、集計結果に差があるかないかの目安に検定結果を利用するのは構いません。ほぼ同じ規模で調査や製品テストを繰り返し、データの測定方法も一定だとすれば、FO-new03_10FO-new03_11を見比べて調査結果を評価するのは、実務的には有用でしょう。なお危険率95%で有意差があるとか、信頼水準95%で有意というレポート表現は誤りです。
 p値が小さいことはデータと帰無仮説の乖離を意味するという真意を理解してもらいたい、というのが今回のASAの声明の趣旨でした。

【今回のまとめ】

  • p値をレポートすれば有意水準を設定しなくて済む
  • p値が小さいほどデータから帰無仮説を棄却できる。けれども統計学の初心者は、その帰無仮説が何だったのかを忘れがちです。
  • 回帰係数が高度に有意だからといって、その変数がマーケティング上有効だということにはならない

【資料】

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチ実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学教授、東京都立大学、首都大学東京教授を歴任。現在、中央大学客員教授、日本行動計量学会理事。「マーケティング・リサーチ プロになるための7つのヒント」「入門 多変量解析の実際」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
株式会社R&D(リサーチ・アンド・ディベロプメント)