新シリーズ第8回「ロジスティック回帰分析でターゲットを確率的に予測する」

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。今回は、ロジスティック回帰分析について、ごく簡単な予測補正のお話です。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦(学習院大学)

第8回 ロジスティック回帰分析でターゲットを確率的に予測する

Q.最近、レアな顧客の出現確率をデータから予測したいという依頼が増えてきました。顧客になりそうな確率をどうやって個人別に推定したらよいでしょうか?

A.(朝野先生)調査データから予測モデルを作って見込み顧客を発見するのに使いたいわけですね。この種の問題にはロジスティック回帰分析を使うのが常套手段です。「やさしい統計学」らしく、ごく簡単な予測補正の話をしましょう。

■まずはロジスティック回帰分析

 たとえば、タワーマンションの潜在顧客を予測したいとします。ターゲットを含んだ調査データを分析して、確率予測のモデルをつくり、それをすでにあるデータ(過去のモデルルーム来場者の顧客アンケートデータ等)にあてはめて予測したいというケースを考えます。
 500人を対象に「住み替え意向についての調査」をしたところ、「タワーマンションに住みたい」と答えた人は35人、つまり7%だったとします。
 見込み顧客なら1、それ以外なら0の値を与えて基準変数Yを作ります。説明変数の数は多くても構わないのですが、ここでは次の3変数にしました。

x1: 現在の家は眺望がよい(5段階尺度)
x2:家からの眺望は大事だ(5段階尺度)
x3:家族人数(実数)

 ロジスティック回帰分析を①式に表します。右辺のb1,b2,b3が回帰係数でcは定数、以上4つが推定したいパラメータです(注1)。 b’xはベクトルの内積によるコンパクトな表現です。
 確率は個人別に調べていないので、まず説明変数が同一の値をとるグループを作り、その中でY=1である回答比率をの観測値として使います。次にを①式左辺のようにロジット(logit)変換します。

 ロジット変換をグラフで描くと図1のとおりで、 0<<1の確率をマイナスの無限大からプラスの無限大まで引き延ばす意味があることが分かります。

図1 確率pのロジット変換
図1 確率pのロジット変換

 ロジスティック回帰分析の実行にはSPSS Statistics のRegressionというプロダクトに入っている「回帰」⇒「二項ロジスティック」を使いました。ロジスティック回帰分析の結果を表1に示します。回帰係数bの欄の数値がパラメータの推定値です。

表1 ロジスティック回帰分析の推定結果

  回帰係数b 標準誤差 Wald 自由度 有意確率 Exp (B)
x1(現在の家は眺望がよい) -0.353 0.147 5.772 1 0.016 0.703
x2(家からの眺望は大事だ) 1.166 0.280 17.360 1 0.000 3.211
x3(家族人数) -0.310 0.148 4.370 1 0.037 0.733
定数c -5.755 1.325 18.870 1 0.000 0.003

 次に①式を指数変換して展開すると、個人がターゲットG1である確率が計算できます。なお以上の計算はすべてSPSSがやってくれますので自分で計算する必要はありません(注2)。

■レアなターゲットであることへの対応

図2 予測確率の度数分布(横座標は確率)
図2 予測確率の度数分布(横座標は確率)

 500人の予測確率の度数分布を示したのが図2です。ターゲットがそもそも希少なので、分布は0.1以下に偏っています。SPSSでデフォルトにしている5分5分基準では>0.5をクリアした人はゼロでした。しかし該当者がゼロだというのではマーケティングの役に立ちません。
 そこでロジスティック回帰分析のオプションから「分類の打ち切り」の指定欄に0.1と入れて判定を実行すると、21%の個人が選ばれます。これは1割以上の確率で顧客に当たればOKとする判定です。

 もう一つの調整はサンプルの偏りの補正です。見込み客の出現比率が市場全体とずれていたら、実務展開が心配です。そこで外部情報からユーザー確率θを与えて予測確率を補正します。もしθ=0.04で、②による予測値の平均が=0.07だった場合は

 この簡単な補正によって予測確率の平均値をθに一致させることができます。

■数値例(最初の10人分、入力データはy,x1,x2,x3の3つ)

 外部基準で補正した予測確率を求めるシンタックスは、プログラムによって保存された(定数あり)の予測値をProbとすると次のとおりです。

 Statistics には「変換」というメニューがあって、自分流のシンタックスを簡単に作ることができます。

■ロジスティック回帰分析を使おう

 今回紹介したロジスティック回帰分析については疑問がいくつかわくに違いありません。
 1)重回帰分析や判別分析を使えば簡単じゃないか
 2)調査データが市場全体に比例していれば、③式の補正は不要ではないか
 3)ユーザーの最適判定は統計プログラムがしてくれるのではないか
 4)③式でθの情報が不確かだったらどうするのか
 それぞれ順にお答えしましょう。

 1)重回帰分析ではマイナスの予測確率や1以上の予測確率が出ることがあります。無意味な予測値を出すモデルは使ってはいけません。判別分析ではYESかNOかの判別しかできないので、きめ細かな顧客対応ができません。

 2)その通りです。けれどもマーケティング・リサーチではターゲットが多く出現するように調査することが多いのです。クライエントがそのように希望するからです。

 3)分析データにおけるユーザー確率を使って判定するプログラムもあります。けれどもデータが偏っていれば判定も誤ります。

 4)θの事前分布を使うベイズ流のアプローチも可能です。けれどもベイズ統計の話はまたの機会にしましょう。

最近では、顧客データを活用したいと考えている企業が多いので、顧客の購買データやアンケートデータから、潜在顧客の出現確率予測につなげられるロジスティック回帰分析は、今後一層注目されていくでしょう。

(注1)ロジスティック回帰分析の理論的な位置づけは、ロジットリンク関数を線形予測子で構造化した一般化線形モデルです。
(注2)実はExcelでもロジスティック回帰分析が実行できます。ただし手間がかかるのでお勧めしません。

【今回のまとめ】

  • ロジスティック回帰分析の実行はとても簡単。
  • レアなターゲットの調査では、ターゲット確率の補正が必要になる。
  • 個人別の予測確率を出すことはone-to-oneの顧客対応に有効である。

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチの実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学、東京都立大学、首都大学東京教授、中央大学客員教授を歴任。学習院マネジメントスクール顧問。日本行動計量学会理事。日本マーケティング学会監事。「ビジネスマンがはじめて学ぶベイズ統計学」「マーケティング・リサーチ プロになるための7つのヒント」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦

ご調査の相談や見積もりのお問い合わせ、資料請求がございましたらお気軽にご連絡ください。

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603

お電話でのお問い合わせはこちら

受付時間:平日 10:00~18:00

0120-958-603
株式会社リサーチ・アンド・ディベロプメント