【要約】15-⑦[AI][Kaggle]Kaggle実践1 ここまでのまとめ(EDA→特徴量エンジニアリング→モデル評価(5つ)) [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
分析者は、KaggleのTitanicデータセットを用いた生存者予測において、データの欠損と特徴量の不足という課題に直面した。
- ・Cabin(客室番号)が77.1%と極めて高い欠損率を示している。
- ・Age(年齢)が約2割欠損しており、単純な全体平均での補完は精度を損なう恐れがある。
- ・生存率に影響を与える変数(性別、客室クラス等)を適切にモデルへ反映させる必要がある。
// Approach
分析者は、EDAによる傾向把握と、属性に基づいた高度な特徴量エンジニアリングの手法を採用した。
- ・EDA: 性別、客室クラス、年齢、運賃の生存率との相関を可視化。
- ・Title抽出: Nameから正規表現で敬称を抽出し、属性グループを作成。
- ・Age補完: Titleごとの中央値を用いて、属性に即した値を設定。
- ・新規特徴量: FamilySize(家族人数)やIsAlone(単身フラグ)を算出。
- ・モデル比較: Stratified 5-Fold CVを用い、4種のモデルを検証。
// Result
分析者は、複数のモデルを比較検証することで、最適なアルゴリズムを特定した。
- ・LightGBMがCVスコア0.8350で最高値を記録。
- ・Kaggle提出スコアは0.77272を達成。
- ・Sex、Title、Fare、Ageが予測に重要であることを確認。
- ・今後は欠損の多いCabinの活用による精度向上を目指す。
Senior Engineer Insight
> 本手法は、MLパイプラインの基礎として非常に堅実である。特にTitleを用いたAgeの補完は、ドメイン知識を反映した優れたアプローチだ。しかし、CVスコアと提出スコアの乖離(0.8350 vs 0.77272)は、過学習やデータ分布の差を示唆している。実戦では、この乖離を最小化するバリデーション戦略の構築が最優先事項となる。