新シリーズ第23回 決定木(ディシジョンツリー)

統計学の初心者が引っ掛かりそうな罠や、普通の実務書にはあまり書かれていないコツをとりあげる新シリーズ。今回は、決定木を3つの系列に分けて解説いただきました。

やさしい統計学講座 ~教えて朝野先生~

R&D技術顧問 朝野熙彦

第23回 決定木(ディシジョンツリー)

Q.最近、決定木という言葉をよく耳にします。決定木はAIの一種なのでしょうか。ざっとどんな方法なのかを教えてください。

A.(朝野先生)決定木は機械学習という大きなくくりに入る手法です。とはいえ決定木自体がさまざまな技法からなる集合体です。決定木を3つの系列に分けて紹介しましょう。

■ 行動ターゲティングへの要望が高まる

 今日のビジネス社会では、自社の商品やサービスの優良顧客にアクセスするための行動ターゲティングに注目が集まっています。たとえば移動中の人に、スマホを通じてその人の好みに合った店を勧める、というのが分かりやすいシーンでしょう。またID付POSデータから行動ルールを発見して優良顧客を識別することも小売業にとって重要な課題です。
 消費者の行動ルールを発見する目的で様々な手法が利用されています。その中でも有力なのが決定木です。原語はdecision treesで、その日本語訳が決定木です。漢字を黙読するだけならいいのですが、読みは「けっていぎ」「けっていき」「けっていぼく」「けっていもく」という4通りの流儀があり、大学あるいは研究室によって呼び方が違ったりします。他にも樹木構造解析とか分枝探索法などの難しい呼び方もあります。平易な呼び方なら「ツリー分析」です。

 さて最近注目されている決定木ですが、そのルーツはけっこう古いのです。決定木の嚆矢になったのはミシガン大のモーガンとソンキスト(1963)によるAID (Automatic Interaction Detector)でした。AIDは1つの数量的な基準変数を消費者グループの逐次2分割で予測する技法でした。枝分かれの過程で条件付きの分割が行われることから、変数間の交互作用が検出できます。それで交互作用検出器と名付けられたのです。

■ CHAIDの系列

 AIDは分析変数が限定的だったので、それを拡大する方向でTHAIDが作られました。質的分類を大きく発展させたのがCHAIDでした。大学院生のカースが1976年に発表した方法です。CHAIDは基準変数に数量データもカテゴリー・データも扱えますし、説明変数には名義尺度、順序尺度、比率尺度が扱えます。また枝別れは2分割に限らず一般的にm分割も可能になりました。というわけでフル装備の決定木といえます。図1にその例を示しました。
 CHAIDでは統計的な基準に従って親セグメントを適切な数の子セグメントに分割します。親ノード、子ノードという呼び方をします。そしてターミナルノードに至る条件が「行動ルール」を表すことになります。図1の結論はテレビの選択は消費者の好みで変わる、というものでした。ではその好みを一般の消費者についてマーケターは知ることができるかどうかが問題です。決定木がマーケティング活動に役立つかどうかは、有効なデータが存在するかどうかにかかっているのです。

図1 テレビ選択のツリー図(出所:朝野、2010)

 その後CHAIDの詳細を整備したのがSPSSのマジソンでした。同社ではCHAIDにAnswerTreeという名前をつけて普及させました。このようにソフトウェア・ベンダーは自由にネーミングすることがあります。

■ C&RTの系列

 ブレイマンら(1984)の回帰樹木(regression tree)は回帰分析と同じく数量的な変数を扱います。もっともダミー変数も使えますので、質的な変数が入っても構いません。
 クラシフィケーション・アンド・リグレッションツリーでは名前が長すぎるので、略してC&RTとかCARTと呼んでいます。図2に豊田(2008)による分析例をあげます。データはボストンの住宅価格のデータという有名なものです。

図2 住宅価格のツリー分析(豊田、2008)

 図2は枝分かれ条件に該当した場合は左に分岐し、非該当なら右に分岐するようにツリーが描かれています。右端のターミナルノードを見ると、部屋数が7.4部屋以上の住宅は価格が45となっています。単位が千ドルなので4万5千ドルです。1970年のデータなので、今からみれば安いです。「下層率」というのは下流層の居住比率です。下層率が高い地区は住宅価格が下がります。「雇用センター」とは雇用センターまでの距離を示します。雇用センターが近くにあると住宅価格が高くなることが分かります。

■ C4.5の系列

 キンランは1993年にC4.5という有名な著書を出しました。本の原題はAIではなく機械学習でした。
 図3は労働交渉の和解に関する決定木です。賃金増加率が高くて法定休暇が多い場合、もしくは賃金増加率が低くても労働時間が短ければ労働交渉はうまくいくというプロダクションルールを示しています。プロダクションルールというのはif A and B then Cというような記号論理で表されるルールをさします。図3で矩形で示した変数は、すべて説明変数です。目的変数は可(good)か不可(bad)という判定結果です。キンランはそれをクラスと呼びました。
 C4.5はエントロピー利得比というクラス数に影響されない指標にもとづいて分割を行います。

図3 C4.5による決定木(キンラン、1993)

 C4.5は現在ではC5.0に発展して様々な統計パッケージに組み込まれています。たとえばSPSSでいえば、クレメンタイン、その後のモデラーというデータマイニング・ツールに組み込まれています。またNTTデータ数理システムのVisual Mining Studioにも決定木が組み込まれています。

■ 決定木の位置づけ

 決定木はデータをもとに機械が自らルールを発見します。その意味で決定木は機械学習の一種です。一方、AIとしては人間がルールを教えこむエキスパートシステムも含まれます。これは機械学習とは真逆の方法です。なお今日のAIの中核的な技術は深層学習であってエキスパートシステムではありません。これらの関連した諸方法を整理したのが図3です。SVMというのはサポートベクターマシーンという手法で画像認識に優れているといわれています。

図4 決定木の位置づけ

■ 引用文献

  • 朝野熙彦(2010)「最新マーケティング・サイエンスの基礎」講談社
  • Breiman,L.,Friedman,J.H.,Olshen,R.A.and Stone,C.J.(1984) “Classification and Regression Tree.” Wadsworth.
  • Kass,G.V.(1976) Significance testing in, and some extensions of, Automatic Interaction Detection, unpublished doctoral dissertation,University of Witwatersrand, Johannesburg, South Africa.
  • Magidson,Jay. (1993) The use of the new ordinal algorithm in CHAID to target profitable segments. Journal of Database Marketing, 1-1.
  • Morgan,J.N. and Sonquist,J.A.(1963) Problems in analysis of survey data and a proposal. Journal of the American Statistical Association,58,415-435.
  • Quinlan,J.R.(1993)”C4.5:Program for Machine Learning,”Morgan Kauftmann.(訳書)キンラン(1995)「AIによるデータ解析」トッパン
  • 豊田秀樹編著(2008)「データマイニング入門」東京図書

2020年5月29日

《朝野煕彦教授 プロフィール》

1969年 千葉大学文理学部卒業後、マーケティング・リサーチの実務を経て、1980年埼玉大学大学院修了。筑波大学特別研究員、専修大学、東京都立大学教授、多摩大学および中央大学客員教授を歴任。学習院マネジメントスクール顧問。日本マーケティング学会監事。「入門多変量解析の実際」「ビジネスマンがはじめて学ぶベイズ統計学」「マーケティング・リサーチ プロになるための7つのヒント」「ビッグデータの使い方・活かし方」「アンケート調査入門」「マーケティング・サイエンスのトップランナーたち」など著書多数。
株式会社リサーチ・アンド・ディベロプメント技術顧問。

朝野煕彦