【要約】「財政力があれば図書館は充実する」は本当か――544自治体の探索的データ分析 [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
筆者は行政経験に基づき、図書館サービスの充実度と自治体の財政力に関する固定観念を検証しようとした。しかし、分析にあたって以下の課題に直面した。
- ・「財政力があればサービスが充実する」という仮説の妥当性。
- ・図書館サービスの充実度を測る統一的な指標の欠如。
- ・人口規模の違いが分析結果に与える影響の不明瞭さ。
// Approach
筆者はSQLとPythonを組み合わせ、統計的な手法を用いて仮説の検証を行った。具体的な手順は以下の通りである。
- ・SQLiteを用いて、自治体コードをキーに2種類の統計データを結合。
- ・pandasを用い、欠損値処理と「市民1人あたりの貸出数」等の指標算出を実施。
- ・相関分析により、財政力指数、資料費、奉仕人口の3つの観点から仮説を検証。
- ・人口規模を3群に分割し、平均や変動係数、箱ひげ図を用いて統計的な比較を実施。
// Result
分析の結果、財政力と貸出数の相関は弱く、資料費との相関の方が高いことが判明した。これにより、以下の知見が得られた。
- ・財政力指数との相関係数は r=0.324 と低かった。
- ・市民1人あたりの資料費との相関係数は r=0.486 と中程度であった。
- ・人口30万人未満の自治体はサービス水準のばらつきが大きく、30万人以上では収束する傾向を確認した。
Senior Engineer Insight
> 典型的な「仮説検証型」の分析プロセスである。単一の変数で結論を出さず、残差から新たな変数(資料費、人口)を抽出する手法は、システム障害の根本原因分析にも通じる。ただし、相関関係と因果関係の混同には注意が必要だ。また、人口規模によるセグメンテーションは、大規模システムにおけるユーザー属性別の挙動分析と同様に、精度の高い洞察を得るために不可欠な工程である。