新シリーズ第9回「CLTでは最低何サンプル必要か」

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。今回は、サンプル数のお話です。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦(学習院大学)

第9回 CLTでは最低何サンプル必要か

Q.CLTは100サンプル規模で実施することが多いのですが、利用ブランドや年齢層でデータをブレイクダウンすることがあります。すると1セルあたり30サンプルくらいになりがちですが、それでいいのかってクライアントに聞かれました。どう答えたらよいのでしょうか?

A.(朝野先生)CLTは100サンプル必要でグループ別集計には30サンプル必要だ、という説になんらかの学術的な根拠があるのか、それとも実務的な経験則なのかを考えてみましょう。

■標準誤差から何が言明できるか

 標本調査の教科書には必要なサンプルサイズは次のように計算すればよいと書かれています(注1)。標本から計算される統計量と真のパラメータの許容誤差をεとすれば、関心のある変数の母分散をyasashi_09_img1、母集団の規模をN、サンプルサイズをn、希望する確率に対応した標準正規分布の正規変量をkとして誤差をその確率でε以下に抑えたいという気持ちを式に表せば

yasashi_09_img2

が導かれます。左側の不等式のルートの部分を標準誤差といいます。(1)式を成り立たせる前提として、調査データが同一の母集団から独立して抽出されるという条件が必要ですが、この条件はしばしば無視されて、単にn数だけに焦点が当てられがちです。さて(1)式は複雑そうですが、マーケティング・リサーチの実務ではNはとても大きく、標本統計量の分布が正規分布で近似できると想定すれば、図1の白い区間に誤差を収めることを意味します。

yasashi_09_img3
図1 正規分布で確率0.95の範囲の図

Nがとても大きくかつ確率0.95に対応したk=1.96を2と簡略化して表記すれば

yasashi_09_img4

さて、(2)の不等式のyasashi_09_img1は調査で知りたい変数の母分散ですから、調査をする前から知っているはずがありません。そう正論を言っても仕方ないので、過去の調査経験から標本分散yasashi_09_img5が予想できるとしてyasashi_09_img1に代入します。さらに、マーケティングでは買うか買わないか、とかどのブランドのファンか、という比率を知りたい場合が多いので、標本確率pの分散を(2)に代入すると、実務上よく出てくるサンプルサイズの式にたどりつきます。

yasashi_09_img_6

標本確率pはCLTで調査票の1問ごとに変わるのですが、pの分散を最大に見積もってp=0.5としε=±0.1のレベルで推定するなら
yasashi_09_img7_03となりますので、これが100人規模でCLTを実施する正当化になるかもしれません。もっとも許容する誤差が±10%というのはなかなかの幅ですが。

■ ブレイクダウンは最低30人という根拠は?

一組の標本における平均値の検定という方法ではnが30人以下の場合はt検定を適用する、というのが30人説の根拠にされたのではないでしょうか。母分散が未知の場合は検定統計量がt分布に従うとして検定できます。
一組の標本における構成比の差の検定ではカイ二乗検定が用いられますが、その適用条件がyasashi_09_img10です。これが最低30人という説の根拠になったのかもしれません。しかし、この検定はデータが1,2,・・・のようにk個の回答に分かれて、構成比率がyasashi_09_img8であるときに帰無仮説yasashi_09_img9を検定するものです。ですからブレイクダウン別にテスト結果を比較したいという意図からすると的外れの論拠です。

■ 非標本誤差の視点

CLTは、さまざまな調査手法のなかでも厳密な実験によって高品質なデータが獲得できるところに優れた特徴があります。試飲・試食や展示物のディスプレイを統制して個人別のインタビューができる方法です。その意味でサンプリング以外の原因によるエラー(これを非標本誤差といいます)を小さくできます。精密な小標本データを得る代償として、そう大規模な調査はできない、という制約があります。大規模にするために調査がいい加減になったら本末転倒です。数千サンプル規模のCLTがめったに行われないのは、スケジュールや費用の制約はもちろんですが良質なデータを確保する必要からではないでしょうか。

参考までにサンプルサイズを10倍にすれば標準誤差を10分の1に出来るわけではない、という例を図2に示しました。500人を超えると標準誤差の減少がなだらかになります。

yasashi_09_img_08
図2 サンプルサイズの増加にともなう標準誤差の減少

(注1)鈴木達三・高橋宏一(1998)「標本調査法」朝倉書店
*この分野の優れたテキストとして永田靖(2003)「サンプルサイズの決め方」朝倉書店があります。永田先生は応用統計学会の会長です。

【今回のまとめ】

  • サンプルサイズを統計理論だけで決定することはできない。
  • 検定できるからよいというのは、サンプルサイズを決める論拠としては弱い。
  • CLTの価値は良質なフィールド管理にある。

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチの実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学、東京都立大学、首都大学東京教授、中央大学客員教授を歴任。学習院マネジメントスクール顧問。日本行動計量学会理事。日本マーケティング学会監事。「ビジネスマンがはじめて学ぶベイズ統計学」「マーケティング・リサーチ プロになるための7つのヒント」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
株式会社R&D(リサーチ・アンド・ディベロプメント)