新シリーズ第20回 ノンパラメトリック検定はなぜ必要か

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。今回は、「ノンパラメトリック検定」です。体系的に解説いただきました。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦

第20回 ノンパラメトリック検定はなぜ必要か

Q.ノンパラメトリック検定とは何でしょうか。ネットの解説を見てもいろいろな検定法が脈絡もなく書かれていて混乱するばかりです。ノンパラメトリック検定の使い分けができるように、体系的に教えてもらえませんか。

A.(朝野先生)ノンパラメトリック検定は、問題意識をほぼ共有しながらも、様々な提唱者の知恵と工夫を寄せ集めて出来ている方法群です。統一した原理にもとづいていないので雑然とした印象を受けるのは仕方ありません。今回はどういうデータに何が使えるかだけでも整理してみましょう。

■ 一言でいうとノンパラメトリック法とは

 私たちがこれまで使ってきた検定は、確率変数の従う確率分布が特定できたとした上で、その分布を定めるパラメータについての仮説を検定するものでした。よく使われている確率分布は正規分布でそのパラメータは平均と分散の2つです。検定の方式ではZ検定とt検定が有名です。この「確率分布が既知なのに、その確率分布を定めるパラメータだけが未知」という何だか不可思議な状況下で、パラメータについて推定と検定を行うのがパラメトリック法です。フィッシャー以来の伝統をもつ推測統計学がパラメトリック法の理論的な根拠を整備してきました。
 では、いつでもどこでもパラメトリックな統計学が使えるのでしょうか?
たとえば、確率分布について何も想定できなければどうすればよいのでしょうか。また変数が数量的に測定できないことはマーケティング・リサーチではむしろ普通です。たとえばブランドへの好意度を数量で正確に答えることは困難です。「行ったことがある店」という情報の場合は、得られるデータは名称であって数量ではありません。たとえばドトールやスターバックスという店名には量的な単位がありません。単位のないデータですから平均も分散も計算できないのです。
 そのようなデータにはパラメトリックな方法が適用できません。それでも、どうしても検定結果を知りたい、というニーズに答えるために開発されてきたのがノンパラメトリック検定なのです。
 ノンパラメトリックというのは「パラメトリックではない」という意味ですから、検定法が茫洋とした集まりになるのは当然です。それこそがノンパラメトリック検定の特徴なのです。

■ ノンパラメトリック検定の全体的なフレーム

 ノンパラメトリック検定のメリットを理解するには、どのような検定が存在するかを理解しなければなりません。そこで、表1にノンパラメトリック検定の全体的なフレームを示しました。
 調査で比較したい集団の数と分析データの性質を組み合わせることで5×2通りの組み合わせができます。その各セルに該当する検定法を配置しました。IBM SPSSの分析メニューを見ると、SPSSも表1と同じフレームにそってノンパラメトリック検定のプログラムを作ったことが分かります。

表1 データの種類に対応したノンパラメトリック検定

標本数 標本の間の対応 分析データの尺度水準
名義尺度 順序尺度
1標本 1標本なので無関係 2項検定
カイ二乗検定
コルモゴロフ・スミルノフ検定
ラン検定(順序がランダムかの検定)
2標本 対応したデータ マクネマーの検定 符号検定(サイン・テスト)
ウィルコックソンの符号付き順位和検定
独立したデータ カイ二乗検定
★フィッシャーの正確検定
中央値検定(メディアン・テスト)
マン・ウィットニーのU検定
コルモゴロフ・スミルノフの検定
ワルド・ウォルフォヴィッツの検定
モーゼスの検定
k個の標本 対応したデータ コクランのQ検定 フリードマンの検定
独立したデータ カイ二乗検定 kサンプルの中央値検定
クラスカル・ウォリスの一元配置分散分析検定

 表1の用語の説明をします。

【標本数】
 「標本数」というのはサンプル規模(sample size)という意味ではなく、比較したい母集団の数だと理解してください。東阪の違いを比べるために東京と大阪で調査した場合は2標本です。ただしいくつの地域で調査しようが、データをプールして全体の結果だけを知りたいなら1標本です。つまり検定における標本数とは、調査の規模によって決まるのではなく、調査目的で決まるのです。
【標本の間の対応】
 標本間で対応のあるデータの典型例は、法人に対して時系列調査をして過去のデータと比べる場合です。個々の法人が去年と今年でどう変動したかを知りたければ、法人で紐づけて去年と今年のデータを比較すればよいのです。
 対応しないデータの典型例は、毎回フレッシュな対象者を選びなおす定点観測の調査です。2個以上の標本の場合も標本の間でデータの対応が取れるか取れないかで検定法が区別されます。同一の対象者についてキャンペーンの事前と実施の際中と事後について追跡できるなら、それは対応した3個の標本になります。
【分析データの尺度水準】
 調査データがカテゴリーの選択か順序づけかで検定法も変わります。名義尺度と順序尺度の測定データには単位がないのが特徴です。単位がない以上、データの間で差をとることも足すこともできません。そのため、名義尺度と順序尺度のデータからは平均も分散も計算できません。ですから、この種のデータには平均と分散が計算できて成り立つZ検定やt検定が使えない、という深刻な問題が起きるのです。名義尺度なら同一のカテゴリーの出現頻度をカウントできます。順序尺度なら、上位か下位かを+-の符号で表せます。このような情報から検定統計量を作り出すのがノンパラメトリック検定です。

■ 具体的な計算の仕方

 表1はノンパラメトリック統計の古典的な名著であるジーゲル(1956)を参考にして整理しました。補足説明しますと、カイ二乗検定のように複数の欄に出てくる検定法がありますが、検定の具体的な計算法は分析データによってそれぞれ異なります。検定法の名称だけが共通なので注意してください。それから表1の右下の欄のクラスカル・ウォリスの一元配置分散分析検定は、クラスカル・ウォリスの順位和検定とか、クラスカル・ウォリスのH検定と呼ばれることがあります。読者の皆さんがお使いのテキストによって名称が違うかもしれません。用語がまちまちなのは迷惑な話です。
 この表に出てくる19種類の検定は、すべて武藤(1995)のハンドブックに検定公式が掲載されています。必要に応じてハンドブックを参照すればよいでしょう。
 たいていのノンパラメトリック検定は難しい計算を要さないので、ユーザーが自分で手計算することも可能です。もちろん手計算は面倒なので、勉強はともかく実務の上では適当な統計ソフトを使ってコンピュータに計算を任せるのが現実的でしょう。SASやJMPその他の統計プログラムが利用できます。
 たとえばSPSSの場合は「ノンパラメトリック検定」というメニューで表1のほとんどの検定が実行できます。ほとんどというのは、表1で★をつけたフィッシャーの正確検定(The Fisher Exact Probability Test、Fisherの直接法とも呼ばれる)だけがSPSSのメニューに入っていないからです。この検定はSPSSで2×2表のクロス集計を実行すると、デフォルトで計算されます。ある497人の調査についてSPSSでクロス集計表を出したのが表2です。フィッシャーの正確検定の結果は表3の通りでした。Fisherの検定の有意確率は0.00だったので、検定結果は有意です。そのことの意味は、性別によってある意見への賛否は異なる、と解釈されます。統計学的により正しい表現は「性別と意見の賛否が独立だとは言えない」という背理法の論述になります。表2からも、女性の方が男性よりも賛成率が高い事がわかります。

表2 性別とQ1「ある意見」のクロス表(度数)

賛成 反対 合計
F1性別 男性 133 116 249
女性 179 69 248
合計 312 185 497

表3 各種の検定結果

自由度 漸近有意確率 正確有意確率
(両側) (両側) (片側)
Pearsonのカイ2乗 18.721a 1 .000
連続修正b 17.926 1 .000
Fisherの直接方法 .000 .000
有効なケースの数 497

a. 0 セル (0.0%) は期待度数が 5 未満です。最小期待度数は 92.31 です。
b. 2×2 表に対してのみ計算

 Excelに標準装備された統計関数と分析ツールではノンパラメトリック検定が実行できません。ただしウィルコックソンの符号付き順位和検定とマン・ウィットニーのU検定については、田久(2018)がExcelの計算シートを公開しています。

■ まとめ:なぜノンパラメトリック検定が必要か

(1)パラメトリック法が使えないから
 本稿でも指摘したように、Z検定やt検定などの一般的な検定が使えない、という事態では、ノンパラメトリック検定に頼るしか仕方ありません。これがノンパラメトリック検定を用いる消極的な理由です。
(2)精度が不十分なデータについても安定的な結論を出せるから
 パラメトリックな検定が平均値を使う代わりに、ノンパラメトリックな検定は中央値を使います。すると極端な外れ値の影響を受けずに安定的な検定結果が得られます。タレントへの好みも100点法の評価なら信頼性が低いでしょうが、好きなタレントの順位だったら信頼性が画然と高まるでしょう。マーケティング・リサーチでは物理や化学の実験室と違って精密な測定が困難な場面がたくさん出てきます。ノンパラメトリック検定では精度が不十分なデータに対しても頑健な結論を導くことができます。これがノンパラメトリック検定を用いる積極的な理由です。
(3)ノンパラメトリック検定の方が優れている場合がある
 従来、ノンパラメトリック検定はパラメトリック検定よりも有意になりづらいとされてきました。けれども岩崎(2006)は、母集団の分布が正規分布から外れている場合は、ノンパラメトリック検定の方がより少ないデータ数でパラメトリック検定と同じ性能が出せることを数値で示しています。つまり正規分布の想定が誤っていて、しかもデータが少ない場合は、ノンパラメトリック法はパラメトリックよりも優れているという指摘です。これがノンパラメトリック検定を用いる条件付きの理由です。


【引用文献】

  1. Siegel,S.,(1956) “Nonparametric Statistics for the Behavioral Sciences,”McGraw-Hill.
  2. 武藤眞介(1995)「統計解析ハンドブック」朝倉書店
  3. 田久浩志(2018)「Excelで学ぶやさしい統計学(第2版)」オーム社
  4. 岩崎学(2006)「統計的データ解析入門 ノンパラメトリック法」東京図書

2019年10月18日

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチの実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学、東京都立大学教授、多摩大学および中央大学客員教授を歴任。学習院マネジメントスクール顧問。日本マーケティング学会監事。「入門多変量解析の実際」「ビジネスマンがはじめて学ぶベイズ統計学」「マーケティング・リサーチ プロになるための7つのヒント」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦