ランダムフォレスト → XGBoost → LightGBM:進化の流れで理解する機械学習モデル | TechDistill
> Source: Qiita_Trend_RSS
Execute Primary Source
// Problem
従来の勾配ブースティング手法、特にXGBoostは高い予測精度を誇るが、データセットの巨大化に伴い、数百万行のデータや数千の変数、ワンホットエンコーディングによる疎な特徴量への対応が困難になっていた。学習時間の増大と膨大な計算リソースの消費が、実務上の大きな課題となっていた。
// Approach
LightGBMは、計算効率を劇的に向上させる4つの手法を導入した。ロスを最小化する葉を優先的に成長させる「リーフワイズ成長」、値をビンにまとめる「ヒストグラムベースの分割」、勾配の大きいデータに重点を置く「GOSS」、そして疎な特徴量を束ねる「EFB」である。これらにより、精度を維持しつつスケーラビリティを確保している。
// Result
LightGBMは、従来のレベルワイズ成長や全データを用いた学習と比較して、学習速度の向上とメモリ使用量の削減を同時に実現した。これにより、大規模かつ高次元なデータセットに対しても、効率的に高精度な予測モデルを構築することが可能となった。
Senior Engineer Insight
> モデル選定において「速いからLightGBM」という判断は危険だ。リーフワイズ成長は、深さ方向への成長により過学習のリスクを伴うため、max_depthやnum_leavesの適切な制御が不可欠である。また、GOSSによるサンプリングやEFBによる次元削減は、計算資源の最適化という観点で極めて合理的だが、データの性質(勾配の分布や特徴量の排他性)を理解した上で適用すべきである。単なるツールの使用ではなく、アルゴリズムの特性を把握したチューニングが実務の鍵となる。