【要約】補助金情報収集システム 開発日誌 2026-06-18 [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
開発者が、自治体サイトからの補助金情報取得における漏れを解決しようとした際、以下の問題に直面した。
- ・リンク判定の硬直化:キーワードの完全一致に依存し、多様な案内表現を検知できなかった。
- ・画像PDFの無視:スキャンされたPDFからテキストを抽出できず、データが消失していた。
- ・既存バグの存在:PDFタイトル誤認や締切日の誤判定、設定不整合が発生していた。
// Approach
開発者は、情報の取りこぼしを防ぐために、判定ロジックの柔軟化とOCRの導入という二段構えのアプローチを採用した。
- ・リンク探索の拡張:部分一致キーワードとURL内のローマ字表記(hojo/josei/shien等)による判定を追加した。
- ・OCR処理の組み込み:テキスト抽出失敗時にAIによる画像認識を呼び出すフローを構築した。
- ・設計の分離:OCR結果は既存のAI情報整理プロセスへ委ねることで、処理の複雑化を避けた。
// Result
開発者がこれらの改善を実施した結果、情報の網羅性とデータの完全性が向上した。
- ・取得件数の増加:新たに22件の補助金情報を取得することに成功した。
- ・バグの解消:PDFタイトル誤認や締切日判定などの不具合3件を修正した。
- ・今後の展望:AIによる情報整理の継続と、OCR精度の向上、処理時間への影響検証を行う。
Senior Engineer Insight
> 網羅性と精度のトレードオフを、最終判定層でのフィルタリングによって解決している点は評価できる。ただし、OCRの導入は計算リソースと処理時間を大幅に消費する。大規模トラフィック下では、非同期処理やキューイングによる負荷分散が不可欠だ。また、判定ロジックの緩和は、誤検知によるクロール範囲の爆発を招くリスクがある。監視体制の構築が運用の鍵となる。