【要約】書類の整合性検証をAIで効率化してみた [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
- ・自治体等の書類はフォーマットが非統一である。
- ・期間や生年月日などの記入ミスを、全フォーマットに対応して検知するのは困難。
- ・手動での整合性確認には多大な工数がかかる。
- ・AIの応答には余計な文章が含まれることがあり、パースに失敗するリスクがある。
// Approach
以下のステップで実装している。
1.
pypdfium2 を用い、PDFをPNG画像へ変換。2.Azure AI Document Intelligenceでレイアウト解析を実施。
3.
selectionMarks から選択肢の選択状態を抽出。4.OpenAIに「記入前/後の画像」と「選択肢情報」を送信。
5.
re モジュールを用い、LLMの応答からJSON部分を抽出・パース。6.
csv モジュールで指摘内容を保存。// Result
記入内容の矛盾をリストアップし、CSV出力が可能。現在は画像化を介しているが、今後はDocument Intelligenceのオブジェクト情報を直接OpenAIに渡す予定。これにより、精度向上とPNG処理の省略(高速化)を目指す。
Senior Engineer Insight
> 画像とテキストの併用は、非定型書類の検証において極めて現実的な解だ。ただし、画像変換やマルチモーダル入力によるレイテンシとコストが懸念される。実運用では、LLMの出力揺らぎに対する堅牢なパース処理が必須となる。将来的な「画像化の省略」が実現すれば、スケーラビリティは劇的に向上するだろう。大規模トラフィックを想定する場合、画像処理の並列化と、APIコストの最適化が運用上の焦点となる。