【要約】文書比較AIを大幅アップグレード!o4-miniを使ってコスト削減&ページまたぎ比較を実現 [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
- ・ページ単位の比較による限界。
- ・文章の追加や削除でテキストが次ページへ移動すると、差分を追跡できない。
- ・将来的な運用を見据えた、AI処理コストの抑制。
// Approach
1.Azure Document Intelligenceで文書構造(role)を抽出。
2.
ocr_to_json.pyで全文を構造化JSONとして取得。3.LLMを用いてOCRの誤認識を自動補正。
4.
mojimojiやunicodedataでテキストを正規化。5.
difflib.SequenceMatcherで段落単位の差分を検出。6.OpenCVで差分箇所を画像上にハイライト描画。
7.Azure OpenAIで差分を要約し、Excel形式で出力。
// Result
- ・ページをまたぐ差分検出に成功。
- ・コストを約58%削減(GPT-4.1比)。
- ・ハイライト済みPDFと新旧対照表(Excel)を自動生成。
Senior Engineer Insight
> モデル変更だけでなく、アーキテクチャを「ページ単位」から「文書全体」へ転換した点が極めて実践的。精度向上とトークン削減を同時に達成している。ただし、LLMによる補正や要約ステップの追加により、レイテンシは増大する。高トラフィック環境では、非同期処理やバッチ処理の設計が必須となるだろう。