【要約】Scraping 241 UK council planning portals – 2.6M decisions so far [Hacker_News] | Summary by TechDistill
> Source: Hacker_News
Execute Primary Source
// Discussion Topic
- ・多様なポータルシステムへの対応。
- ・AWS WAF等の高度な防御策の回避。
- ・TLSフィンガープリントによる非ブラウザ要求の遮断。
- ・自治体ごとに異なるデータスキーマの正規化。
// Community Consensus
単一のライブラリでは突破不能という技術的合意。
- ・
requests: 軽量だが検知されやすい。 - ・
Playwright: JS対応可能だが重い。 - ・
curl_cffi: TLSフィンガープリント対策に有効。
// Alternative Solutions
- ・
requests(標準的なHTTPリクエスト) - ・
Playwright(ブラウザ自動化) - ・
curl_cffi(TLSフィンガープリント回避)
// Technical Terms
Senior Engineer Insight
> 技術的達成度は高いが、運用の持続性に疑問が残る。241の個別スキーマと防御策を管理するのは、典型的な「メンテナンス地獄」だ。特にWAFによるIP制限は、スケーラビリティを根本から阻害する。実戦投入には、プロキシ回転の自動化や、スキーマ変更を検知する高度な抽象化レイヤーが不可欠。単なる収集技術ではなく、データパイプラインの堅牢性が問われる。