【要約】15-⑦[AI][Kaggle]Kaggle実践1 ここまでのまとめ(EDA→特徴量エンジニアリング→モデル評価(5つ)) [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

分析者は、KaggleのTitanicデータセットを用いた生存者予測において、データの欠損と特徴量の不足という課題に直面した。

・Cabin（客室番号）が77.1%と極めて高い欠損率を示している。
・Age（年齢）が約2割欠損しており、単純な全体平均での補完は精度を損なう恐れがある。
・生存率に影響を与える変数（性別、客室クラス等）を適切にモデルへ反映させる必要がある。

// Approach

分析者は、EDAによる傾向把握と、属性に基づいた高度な特徴量エンジニアリングの手法を採用した。

・EDA: 性別、客室クラス、年齢、運賃の生存率との相関を可視化。
・Title抽出: Nameから正規表現で敬称を抽出し、属性グループを作成。
・Age補完: Titleごとの中央値を用いて、属性に即した値を設定。
・新規特徴量: FamilySize（家族人数）やIsAlone（単身フラグ）を算出。
・モデル比較: Stratified 5-Fold CVを用い、4種のモデルを検証。

// Result

分析者は、複数のモデルを比較検証することで、最適なアルゴリズムを特定した。

・LightGBMがCVスコア0.8350で最高値を記録。
・Kaggle提出スコアは0.77272を達成。
・Sex、Title、Fare、Ageが予測に重要であることを確認。
・今後は欠損の多いCabinの活用による精度向上を目指す。

Senior Engineer Insight

> 本手法は、MLパイプラインの基礎として非常に堅実である。特にTitleを用いたAgeの補完は、ドメイン知識を反映した優れたアプローチだ。しかし、CVスコアと提出スコアの乖離（0.8350 vs 0.77272）は、過学習やデータ分布の差を示唆している。実戦では、この乖離を最小化するバリデーション戦略の構築が最優先事項となる。

TechDistill.dev

【要約】15-⑦[AI][Kaggle]Kaggle実践1 ここまでのまとめ(EDA→特徴量エンジニアリング→モデル評価(5つ)) [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Java・TSしか触ったことがない私が、Pythonで「なんだこれ！」となった12の特徴【入門メモ】

【めざせカードマスター】Kaggle ポケモンカードAIバトルチャレンジ入門 The Pokemon Company PABC

AI推論のゼロ知識証明入門⑥　【番外編】EZKLで「本人確認」を秘密のままZK証明してみた――文字列データのメンバーシップ証明

rembgで背景除去アプリを作ってHugging Face Spacesに無料公開した

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Java・TSしか触ったことがない私が、Pythonで「なんだこれ！」となった12の特徴【入門メモ】

【めざせカードマスター】Kaggle ポケモンカードAIバトルチャレンジ入門 The Pokemon Company PABC

AI推論のゼロ知識証明入門⑥ 【番外編】EZKLで「本人確認」を秘密のままZK証明してみた――文字列データのメンバーシップ証明

rembgで背景除去アプリを作ってHugging Face Spacesに無料公開した

AI推論のゼロ知識証明入門⑥　【番外編】EZKLで「本人確認」を秘密のままZK証明してみた――文字列データのメンバーシップ証明