新シリーズ第2回「ウェイトづけ集計の落とし穴」

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。 今回は、ウェイトづけするとしたらどういう場合か、についてのお話です。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦(中央大学)

第2回 ウェイトづけ集計の落とし穴

Q.お客様からクロス集計はウェイトづけする方が良いのか?って聞かれたんですが、統計的にはその方が正しいのでしょうか。

A.(朝野先生) とても深い質問ですね。今回はウェイトづけするとしたらどういう場合か、というワンポイントに絞ってお話ししましょう。

■ウェイトづけ、いつするか?

 調査サンプルに偏りがあるため、市場規模を推計するのに不適切なときや回収数が割り当て目標を割ってしまった場合にウェイトづけをしたくなるのは自然な発想です。けれどもウェイトづけをする方がよいかどうかは、リサーチ課題とデータの状況に応じて違ってきます。

【ケース1】ウェイトづけができない場合

 マーケティングのターゲットは日本人全体とか東京都民といった分かりやすい母集団ばかりではありません。特定ブランドのユーザーにしか関心がない調査もあれば、痔や水虫のような人知れずの悩みに対応するマーケットもあります。そういうターゲットは公的登録などあるはずもなく総人口はもちろん正確な属性分布も不明です。母集団が分からなければウェイトづけのしようがありません。

【ケース2】実験を通じて因果関係を明らかにしたい場合

 反応Yに対する変数Xの効果を明らかにすることを目的にした調査もあります。HUTやCLTによる試飲・試食テストなどが典型例です。たとえば対象者に条件X1とX2を無作為に割りつけて次の集計結果を得たとしましょう。

  おいしいY1 おいしくないY2 合計
調理法X1で試食 80 20 100
調理法X2で試食 60 40 100
合計 140
(70%)
60
(30%)
200

 2つの割り付け数は調査の都合で決めたものにすぎません。ですから両者を合計した70%には何の情報もありません。このようなケースではウェイトをつけること自体が無意味です。

【ケース3】変数Zの構成比を母集団の構成比と一致させた場合

 国勢調査に比例して性別・年齢別の回収サンプル数を設定するような調査です。COREの標本設計がそうです。既知の情報の範囲で最善をつくした調査といえます。このケースでは性別・年齢別の標本構成が母集団の構成と一致しますから、ウェイトづけをしてもしなくても結論は同じです。  もし調査テーマである変数Yの真の原因である変数Xの分布が既知でXを記載した全数台帳も利用できるなら、そのXを使って比例抽出をすればよいのです。それができないからこそ第3の変数Zを使って割り当てをしているのです。「最善をつくす」というのはそういう意味です。

【ケース4】ブレイクダウン変数Zが反応Yと独立な場合

 真の原因かどうかは分からないが母集団の情報だけは分かっている変数Zがあって、ZでYをブレイクダウンしたとします。ここでは単純なクロス集計の例をあげますが、性別・年齢別・地域別の3変数を組み合わせて新変数Zを作ってブレイクダウンしても本質は同じです。

  Y1 Y2 合計
Z1 40 60 100
Z2 360 540 900
合計 400
(40%)
600
(60%)
1000

 仮にZ1とZ2の標本割合である1対9が現実世界と大きく異なっていたとしても、ケース4の状況ではウェイトをかける必要はありません。ウェイトをかけてもかけなくても全体の結論が変わらないからです。変数の独立性はクロス集計表のカイ二乗値で評価できます。上の表のカイ二乗値は0になります。もちろん厳密に独立であることは稀ですから、この判定は程度問題です。

【ケース5】変数Zが反応Yと連関がある場合

  回収サンプル数
nj
反応頻度
fj
原データの比率 母集団規模
Nj(万人)
20代 110 28 25.45% 1392
30代 90 72 80% 1828
40代 100 50 50% 1690
合計 300 150 50% 4910
  グループの期待規模 ウェイト後の反応頻度 修正比率
20代 85.02 21.64 25.45%
30代 111.71 89.37 80%
40代 103.26 51.63 50%
合計 300 162.65 54.2%

 このクロス集計は年代別のサンプル数が母集団の構成比と異なり、しかも年代と反応Yに連関がある場合を示しています。

 年代jのサンプル数をnj、母集団規模をNj,そしてそれぞれの合計を

FO-new02_01とすれば,グループjの頻度fjに掛けるウェイトWj

FO-new02_02

 各年代のサンプル数の期待規模はFO-new02_03ですから、ウェイト後の修正比率はこの期待規模に標本比率を掛けて②のように求まります。

FO-new02_04

 結局ウェイトづけは年代別の比率には影響せず、全体の結果だけを修正することが分かります。例示のデータでは全体の比率が50%だったのが54.2%に上方修正されました。なお①の計算式は回収サンプルの合計と期待規模の合計が一致するという意味で一応の合理性があります。

 しかし調査の実務では、より素朴にFO-new02_05でウェイトをつける流儀もありますし、
文献1はFO-new02_06としています。するとケース5のウェイトは20代が1、30代は1.3132、40代は1.2141になります。これも誤りではありませんが、ウェイト後の合計データ数が調査サンプルの合計数を必ず上回ることになります。また戦後期にはウェイトは整数にすると間違いがない、というガイドブックがありました。コンピュータ環境のなかった時代を反映していると思います。

■疑問はつきない

 ウェイトづけ後の推定と検定はどうすればよいのか、多変量解析はどうすればよいのかなど疑問はつきません。最近の実務ガイドをあたってみたのですがそうした論理と計算式をきちんと示した本は見つかりませんでした(あったら教えてください)。ウェイトづけだけで1冊の成書があってしかるべきですが、私の知る限りまだそういう本はないようです。

 最後に用語への疑問です。文献2)にはweighting of data という解説があります。文献3)にはウェイトづけ(weighting)という表現が出てきます。ですから俗にいうウェイトバックという言葉は和製英語ではないかという疑惑があります。

【今回のまとめ】

  • ウェイトづけをする必要があるとは一概にいえない
  • ウェイトづけの計算法に唯一の正解はない
  • ウェイトづけには不明なことがいっぱい

文献

  • 1)NHK放送文化研究所編(1996)「世論調査事典」大空社、129頁
  • 2) ESOMAR Handbook of market and opinion research 4th Edition,p411.
  • 3) 竹内啓(1989)「統計学辞典」東洋経済、289頁

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチ実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学教授、東京都立大学、首都大学東京教授を歴任。現在、中央大学客員教授、日本行動計量学会理事。「マーケティング・リサーチ プロになるための7つのヒント」「入門 多変量解析の実際」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
株式会社リサーチ・アンド・ディベロプメント