【要約】機械学習を用いたFAX DM自動判別システムの開発と精度向上への取り組み [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
福祉書類管理システムの運営チームが、受信FAXに含まれる大量の広告(FAX DM)によるOCR/LLM処理コストの増大に直面した。広告と正規書類の判別において、以下の課題が存在する。
- ・視覚的な類似性:広告の装飾と正規書類の罫線が、画像として似た特徴を持つ。
- ・誤判定のリスク:正規書類を誤って除外すると、業務に致命的な影響を及ぼす。
- ・コストの圧迫:広告を全件OCR/LLM処理することで、不要な計算リソースを消費する。
// Approach
開発チームは、単純な画像解析から機械学習を用いた高度な分類モデルへと、段階的に手法を改善した。
- ・Phase 1:黒色ピクセル比率を用いたヒューリスティックな判定を試行した。
- ・Phase 2:OpenCVを用い、横線の厚みやエントロピーなど23個の特徴量を設計した。
- ・Phase 3:Gradient Boostingを採用し、OCR処理の直前に判定レイヤーを統合した。
- ・Phase 4:誤除外ゼロを最優先し、判定閾値を0.998まで引き上げる調整を行った。
// Result
開発チームは、正規書類の誤除外を完全に防ぐ、極めて信頼性の高い判定システムを実現した。
- ・Precision(適合率):100%を達成し、正規書類の誤除外をゼロに抑えた。
- ・Recall(再現率):約80%に留まり、一部の広告がコストを消費する結果となった。
- ・今後の展望:正規書類の学習データを拡充し、Recallの向上と再学習の自動化を目指す。
Senior Engineer Insight
> 「誤判定を許さない」という実運用上の制約に対し、Precisionを100%に固定し、Recallを犠牲にする判断は極めて合理的だ。コスト削減よりも業務継続性を優先する、現場感覚に即した設計と言える。ただし、Recall 80%ではコスト削減効果が限定的だ。解決策として挙げられている「正規書類のデータ拡充」は正攻法だが、個人情報を保護しつつ、いかに多様な書式を収集・匿名化するかのパイプライン構築が、実戦投入における真の難所となるだろう。