第8回「カイジジョウ」ってなあに?

リサーチに携わっている人ならどこかで必ず耳にする「カイジジョウ」という、なんとも耳障り(?)な言葉を今回は取り上げます。 「カイジジョウ」の「ジジョウ」は二乗、つまりそれ同士を掛けたものということです。 「カイ」はギリシ・・・

リサーチに携わっている人ならどこかで必ず耳にする「カイジジョウ」という、なんとも耳障り(?)な言葉を今回は取り上げます。

「カイジジョウ」の「ジジョウ」は二乗、つまりそれ同士を掛けたものということです。

「カイ」はギリシャ文字でχと書きます。

ローマ字には対応する文字がないのでCHとかCHIと表記します。

このほかにもσ(シグマ)やμ (ミュー)など統計関係の数式にはギリシャ文字が多く、これが統計の取っ付きにくさの一因だと私は思います。

σは標準偏差を意味するStandard deviationの頭文字sに対応するギリシャ文字ですし、μは平均値Meanの頭文字mに対応しています。

しかしχについては相関係数で有名な統計学者ピアソンが命名したそうですが、なぜこの文字なのかわかりません。

統計量の効用

統計の本ならほとんど3回は出てくる 統計量です。

母集団の分散を求めることで平均の区間推定をしちゃおうという。

これが、たいていの場合最初に載っています。

ですが、リサーチ業界の場合は標本数が10や20といったことはほとんどありませんので、あまり身近な話題とはいえません。

次によく出てくるのは、サイコロを30回振ったとき1が8回出た場合、このサイコロは正しいのか、それともイカサマなのかを検定する話です。

これもリサーチには何の関係もなさそうですが、「実際の観測結果 が理論値に一致しているか」と言いかえるとちょっと興味が出てくるでしょう。

この時のカイ2乗値の計算式は次のようです。

カイ2乗値の数式

実際のデータ(表1)で計算をしてみましょう。

昔はたいへんでしたが、今はExcelという強力な武器がありますので、こんな計算はお茶の子です。

42÷5=8.4と簡単にカイ2乗値が計算できました。

サイコロを30回振ったときに出た目の観測数のデータ((観測値-期待値)の2乗=42)

さて、この数値をどう使うかがまた面倒です。

カイ2乗検定にはカイ2乗分布表を用いますが、この時に「自由度」という考え方が必要になります。

ギリシャ文字で「φ」と書きますが、教科書によっては「ν」だったり、ローマ字の「n」だったりと統一されていないようです。

英語ではDegree of FreedomですのでDFと表記するのが一般的です。

この例の場合、出た目6種類のうち5種類が決まれば自動的に最後の1種が決まってしまいますから、自由度は5となります。

カイ2乗分布表の自由度=5の行で8.4を探します。

0.1の列が9.24で、これが最も近い値です。

0.1というのはこのサイコロが公正なサイコロであったとした時にこの結果 が出る確率がカイ2乗値9.24の時に10%であることを示しています。

8.4の場合この確率はもっと増大します(約0.21)から「このサイコロはちょっと怪しい」と結論づけます。

カイ2乗値が15を超えるようなら自信を持って「いんちきだ!」と言いきれます。

変数間の関連度を測る

「性別に見た喫煙状況」のクロス表

ここに「性別に見た喫煙状況」というクロス表があります。

この表から性と喫煙という2つの変数の関連が読み取れますが、「強い関連がある」と言っていいのか、また別 の変数(たとえば年齢)と喫煙の関連とどちらが強いのか悩むことが多くあります。

こうしたときにも使えるのがカイ2乗統計量 のエライところです。

公式は先ほど使ったものがそのまま適用できますが、「期待値」の考え方が違います。

「2つの変数の間に関連がない(互いに独立)ならば合計欄(周辺分布と呼ぶ)と同じ確率になるはずだ」という前提をもって期待値とします。

この計算がちょっと厄介ですが、これさえクリアすればあとは簡単です。

このクロス表の場合カイ2乗値は364という非常に大きな値になりました。

自由度は表側の自由度と表頭の自由度の積になりますので(2-1)×(2-1)で1です。

自由度1の0.01は6.63です。

いいかえると「性と喫煙の関連がないとしたときに、このクロス表が得られる確率はカイ2乗値6.63のとき1%である」となります。

これが364となったら確率はどれだけ小さくなるのか推して知るべしでしょう。

そしてCHAID登場

2変数の関連の度合いがカイ2乗統計量であらわすことができることから生まれたのがCHAIDです。

「チェイド」と発音する人が多いですが、カイ2乗統計量 を用いているので「カイド」と発音するのが正しいし、わかりやすいと思います。

もともとは「交互作用の自動検出法」(Automatic Interaction Detector)AIDの欠点を克服したものです。

下に載せた例は「喫煙」を基準変数に、健康意識とストレス感を説明変数としてCHAIDを実行したものです。

まずストレス感(「しばしば感じる」とそれ以外)で2分され、「しばしば感じる」599人が次に健康意識で2分されていることがわかります。

喫煙率の高いグループは「ストレスをしばしば感じていて健康に自信がない」236人のグループで、52%になることがわかります。

この分析を実行できるプログラムパッケージはSPSS社の「Answer Tree」です。

CHAIDのほかの分割アルゴリズムが使用可能です。

英語版しかないのが残念ですが、使いやすいので一日も早く日本語化してほしいと思います。

AIDファミリーについての詳しい解説はいつもおなじみの『入門多変量 解析の実際』朝野熙彦(1996)をご覧ください。

CHAID(カイド)のアウトプット例

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
カイジジョウ-統計学について。R&D(リサーチ・アンド・ディベロプメント)は生活者インサイトに強い市場調査会社。お客様の課題に最適なリサーチをご提案。会場調査・ホームユース等の定量調査からグループ・インタビュー等定性調査まで幅広い手法に対応できることが強みです。