【要約】WEBスクレイピングやってみました [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
筆者が、家族の要望に応えるために道の駅の情報を集める際、手動での調査に多大な手間を感じた。具体的には以下の課題が存在した。
- ・手動による情報収集の非効率性。
- ・情報の構造化および一覧性の欠如。
// Approach
筆者は、Pythonを用いたスクレイピングにより、情報の自動収集と構造化を行うアプローチを選択した。以下の手順で実装を行っている。
- ・
robots.txtを確認し、サイトの規約を遵守する。 - ・
requestsでHTMLを取得し、BeautifulSoupで解析する。 - ・
pandasを用いてデータを整理し、CSV形式で出力する。
// Result
筆者は、プログラムを通じて道の駅の情報を整理し、CSV形式での保存に成功した。これにより以下の成果を得た。
- ・駅名、住所、詳細URLを含むデータセットの構築。
- ・手動作業の自動化による効率化の実現。
Senior Engineer Insight
> 実戦レベルでは、サイト構造の変化に対する脆弱性が懸念される。また、サーバーへの負荷軽減策として、リクエスト間に適切な待機時間を設けるべきだ。動的なサイトへの対応や、エラーハンドリングの追加も運用上不可欠である。