Abstract
決定木は、if-then ルールに基づいて入力データを分類する構造を有しているため、解釈が容易であるという利点がある。しかし、必要最低限のルールのみで明確な分類を実現するアルゴリズムが採択されているため、ビッグデータに多様なルールが隠れ潜んでいる場合、その一部しか抽出できないという問題がある。この対策として、ランダムに選択された特徴部分集合を用いて複数の木を構成するアプローチがあるものの、特徴部分集合の総数は組合せ爆発しているため、構成可能な決定木もまた同じスケールになる。また、複数の決定木を構築した場合、多数のルールが生成されるものの、その中には信頼できないものもあるし、似ているものもある。このようなルールすべてを見て何らかの解釈を行うことは難しい。
そのため本研究では、少ない計算量で理論的に構築可能なすべての決定木の中から、高い推定性能を持つ木を戦略的に構築し、かつ、信頼でき類似していないルールのみを抽出するアルゴリズム “MAABO-MT”と”GS-MRM”を提案する。提案手法の有効性を検証するために、複数のオープンデータセットを用いて実験を行った。その結果、MAABO-MTはランダム性に依存する他手法よりも低い計算量で信頼性の高いルールを発見できることが確認された。さらに、先行研究で一般的に用いられている単一の決定木よりも深い考察を実施できることが確認された。したがって、MAABO-MTとGS-MRMは、組み合わせ爆発した決定木集合から効率的にルール抽出を行うことができる。
Publication
- Yuto Omae, Masaya Mori, Yohei Kakimoto, Multi-rules mining algorithm for combinatorially exploded decision trees with modified Aitchison-Aitken function-based Bayesian optimization, arXiv:2310.02633, [arXiv]
Note
この記事および画像は有償サービスにより作成されたものであり、本ページのみでの利用を想定しています。無断利用を発見した場合はご一報ください。