【要約】書類作成をAIで自動化してみた [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
- ・大量の記入欄がある書類の手入力による非効率性とミス。
- ・OCR抽出テキストとCSVキーの単純な文字列一致による誤置換。
- ・同一項目名が複数箇所に存在する際の、置換箇所の特定困難性。
- ・表記ゆれや記号の差異によるマッチング精度の低下。
// Approach
1.Azure Document IntelligenceでPDFから文字情報を抽出。
2.pandasを用い、CSVデータをJSON形式へ変換。
3.Azure OpenAIにより、CSVキーと文書内のプレースホルダーをセマンティックに紐付け。
4.2段階のAI補正(プレースホルダーの限定、文脈による補完)を実施。
5.python-docxと正規化処理(NFKC等)を組み合わせ、Word文書の置換を実行。
// Result
AIによる文脈理解により、括弧付きのプレースホルダーを正確に特定し、置換を実現。今後の展望として、括弧のない空白への推定補完や、テーブル構造の認識によるマッチング精度の向上を掲げている。
Senior Engineer Insight
> 実戦的な構成である。単純な正規表現や文字列一致に頼らず、LLMを「意味的な紐付け」に特化させた点が評価できる。特に、AIの出力が不安定であることを前提とした、2段階の補正プロセスや正規化処理の実装は、現場の泥臭い課題を理解した設計だ。ただし、大規模運用ではAPIのレイテンシとコストがボトルネックとなる。また、AIの誤判定が致命的なミスに直結するため、人間による最終確認を組み込んだパイプライン設計が必須となる。