【要約】昼間人口が最も減った豊島区─複数テーブルで仮説を検証する [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
- ・豊島区の昼間人口が23区中で最大規模の減少を示した背景の解明。
- ・「リモートワークによる通勤者減少」という単純な仮説と実データの乖離。
- ・通学者の年齢層や居住地による影響の複雑さ。
// Approach
1.DuckDBを用い、複数のCSVファイルをSQLで高速にJOIN・集計。
2.15歳以上のデータと全年齢のデータを比較し、分析対象の範囲を厳密に定義。
3.「自宅就業率」を指標に、リモートワークの影響を検証。
4.「通学者の常住地別流入状況」をクロス集計し、都外通学者の動向を特定。
5.産業分類の表記揺れ(全角・半角)を、数値列(産業分類並び順)を用いて制御。
// Result
- ・リモートワーク仮説を棄却。
- ・通学者減少(特に埼玉県からの遠距離通学者)が減少の約81%を占めることを特定。
- ・池袋エリアの特性とリモート授業化の整合性を確認。
Senior Engineer Insight
> 分析プロセスにおける「仮説の棄却」という科学的手法が徹底されている。DuckDBの採用は、大規模なCSV操作における計算リソースの節約と開発速度の向上に寄与する。実データ特有の「表記揺れ」への対処は、データエンジニアリングの基本であり、本記事でも適切に処理されている。ただし、因果関係の証明には、より高度な統計的アプローチが必要である。