【要約】書類作成をAIで自動化してみた [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
従来のOCRと文字列一致による自動化では、同一項目名の重複や表記ゆれにより、誤った箇所へのデータ挿入が発生するという課題があった。また、複雑な書類フォーマットにおいて、どの空白がどのデータに対応するかを正確に特定することが困難であった。
// Approach
Azure OpenAIを活用し、OCRで抽出したテキストの文脈から適切なプレースホルダーを特定する手法を採用。2段階のAI補正と、正規化処理(NFKC等)を組み合わせることで、曖昧なテキストや記号主体の空欄に対しても高精度なマッチングを実現した。
// Result
テンプレート側に特定の記述(括弧付き項目名)を設けることで、CSVデータとの正確な紐付けに成功。今後は、明示的なプレースホルダーがない完全な空白領域の推定や、テーブル構造の高度な認識による精度向上を目指す。
Senior Engineer Insight
> 実用的なアプローチだが、LLMの推論に依存しているため、大量の書類を処理する際のコストとレイテンシがボトルネックとなる。また、テンプレート側に「(項目名)」という制約を課している点は、既存資産の活用という観点では導入障壁になり得る。現場投入時は、APIのレートリミット対策と、AIの誤判定を前提としたバリデーション、および人間による最終確認プロセスを設計に組み込むべきである。