【要約】なぜ深層学習は表形式データでツリーモデルに勝てないのか [Qiita_Trend] | Summary by TechDistill
> Source: Qiita_Trend
Execute Primary Source
// Problem
深層学習が表形式データで苦戦する要因は以下の通り。
- ・データの構造的欠如:画像や言語のような空間的・連続的な階層構造が存在しない。
- ・変数の性質:多様な属性、行動、地理情報が混在している。
- ・複雑な相互作用:疎なカテゴリ変数や、非線形な特徴量間の相互作用が頻出する。
// Approach
決定木ベースのモデルは、抽象的な表現ではなく「ルール」を直接学習する。特にLightGBMは、以下の手法で高速化と高精度化を実現している。
1.leaf-wise成長:損失が最も減少するリーフを優先的に成長させる。
2.GOSS:勾配の大きい行を優先的にサンプリングし、計算を効率化する。
3.EFB:疎な変数を圧縮し、特徴量数を削減する。
4.ヒストグラム化:数値をヒストグラムに変換し、分割評価の回数を削減する。
// Result
ビジネスにおける主要なデータ(顧客行動、購買履歴、アクセスログ等)において、ツリーモデルは依然として極めて高い予測精度を維持している。LightGBM等の登場により、大規模データに対しても、計算量とメモリ使用量を抑えた高速なモデル構築が可能となった。
Senior Engineer Insight
> 「最新の深層学習が最強」というバイアスは、実務において致命的な判断ミスを招く。表形式データを扱う現場では、まずLightGBM等のブースティング系をベースラインに据えるのが定石だ。DLは構造化データに対しては計算コストに見合う精度が出にくい。データの性質(構造の有無)を正しく見極め、適切なアルゴリズムを選択する。この「道具の使い分け」こそが、モデルの精度と運用コストを最適化する鍵となる。