第13回「データの落とし穴」ってなあに?

前回「ヘイキンってなあに?」ではいろいろなデータの要約の仕方を紹介し、「要約値ではデータ本来の姿が見えない」ことを指摘しました。 今回はその続編として、日常使われる様々なデータ要約がじつはおそろしさをはらんでいることを指・・・

前回「ヘイキンってなあに?」ではいろいろなデータの要約の仕方を紹介し、「要約値ではデータ本来の姿が見えない」ことを指摘しました。
今回はその続編として、日常使われる様々なデータ要約がじつはおそろしさをはらんでいることを指摘し、様々な視点からデータを吟味することの重要性を納得してもらいたいと思います。

1変量を要約する

IT技術の進歩により、データを収集することが以前と比べて格段に容易になりました。しかも膨大なデータも瞬時に加工・解析が可能なため、検討すべき数字が限られた時間の中に津波のように押し寄せてきます。とても全ての数字を検討対象にはできません。
5段階スケールの質問ひとつでも検討すべき数値は5つあります。これが百問あると500の数値を検討しなければなりません。これにかかる時間を5分の1にする技をあみ出した人がいるらしく、巷でよく目にするようになりました。
「スコア」と呼ばれることの多いこの値は順序尺度の各カテゴリーに降順、あるいは昇順の値を乗じて回答者数で除すものです。<表1>

<表1>

スコア表

こんなふうに要約して、もとの5段階の分布を無視すれば、なるほど5分の1の時間ですみます。メデタシメデタシなのでしょうか?

<表2>

度数分布表とスコア値

<表2>のようなデータを考えて みました。
「分布は違えどスコアは同じ」の例です。スコアだけ見ていると、名前からブランドイメージまで評価は同じに思いますが、分布を見てしまったらとてもそんなことは言えませんよね。

2変量の関係を要約する

代表的なものに第9回で紹介した相関係数があります。用いる条件として「2変量がともに順序尺度以上」であることが求められますが、これをクリアしていれば、なるほど便利な統計量です。
5段階スケール同士の2変量の関係をひとつの数値で表現してしまいます。ただし、ここにも落とし穴があります。以下のデータを見てみましょう。 

重視度と満足度のローデータ

重視度と満足度について20人分のデータです。どちらも順序尺度で、1がとても重視(満足)~5.全く重視しない(とても不満)だと思ってください。
このデータの相関係数を算出してみましょう。結果は-0.017となります。無相関ですね。このことから「重視度と満足度には何の関係もない」と言い切っていいでしょうか?

クロス集計表の重要性

2変量の関係を最もよく表現できるのは<表3>のような「クロス集計表」です。古典的かつシンプルな方法なので、「原始的」と思っておられる方もいらっしゃると思いますが、これが最も情報の欠落の少ない優れた方法なのです。

<表3>

重視度×満足度のクロス表

これをみると、「とても重視する」と答えた人が「満足」と「不満」に2極分化していることがわかります。ここになんらかの情報が隠れているかもしれません。さらに分析する必要がありそうですね。
この例とは逆に「身長と学力に強い相関がある」というデータがあります。学年別に分けて相関係数を算出するとほとんど無相関だったという笑い話です。相関係数だけでなく、七面倒くさい式で表される統計量はなにか「ありがたい」ものとして、その結果だけをむやみに大事にしがちです。
しかし、自分の感覚と「ズレ」があるものは疑う、またそうした感覚を養うことが大事だと思います。

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
データ-統計学について。R&D(リサーチ・アンド・ディベロプメント)は生活者インサイトに強い市場調査会社。お客様の課題に最適なリサーチをご提案。会場調査・ホームユース等の定量調査からグループ・インタビュー等定性調査まで幅広い手法に対応できることが強みです。