【要約】機械学習を用いたFAX DM自動判別システムの開発と精度向上への取り組み [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

福祉書類管理システムの運営チームが、受信FAXに含まれる大量の広告（FAX DM）によるOCR/LLM処理コストの増大に直面した。広告と正規書類の判別において、以下の課題が存在する。

・視覚的な類似性：広告の装飾と正規書類の罫線が、画像として似た特徴を持つ。
・誤判定のリスク：正規書類を誤って除外すると、業務に致命的な影響を及ぼす。
・コストの圧迫：広告を全件OCR/LLM処理することで、不要な計算リソースを消費する。

// Approach

開発チームは、単純な画像解析から機械学習を用いた高度な分類モデルへと、段階的に手法を改善した。

・Phase 1：黒色ピクセル比率を用いたヒューリスティックな判定を試行した。
・Phase 2：OpenCVを用い、横線の厚みやエントロピーなど23個の特徴量を設計した。
・Phase 3：Gradient Boostingを採用し、OCR処理の直前に判定レイヤーを統合した。
・Phase 4：誤除外ゼロを最優先し、判定閾値を0.998まで引き上げる調整を行った。

// Result

開発チームは、正規書類の誤除外を完全に防ぐ、極めて信頼性の高い判定システムを実現した。

・Precision（適合率）：100%を達成し、正規書類の誤除外をゼロに抑えた。
・Recall（再現率）：約80%に留まり、一部の広告がコストを消費する結果となった。
・今後の展望：正規書類の学習データを拡充し、Recallの向上と再学習の自動化を目指す。

Senior Engineer Insight

> 「誤判定を許さない」という実運用上の制約に対し、Precisionを100%に固定し、Recallを犠牲にする判断は極めて合理的だ。コスト削減よりも業務継続性を優先する、現場感覚に即した設計と言える。ただし、Recall 80%ではコスト削減効果が限定的だ。解決策として挙げられている「正規書類のデータ拡充」は正攻法だが、個人情報を保護しつつ、いかに多様な書式を収集・匿名化するかのパイプライン構築が、実戦投入における真の難所となるだろう。

TechDistill.dev

【要約】機械学習を用いたFAX DM自動判別システムの開発と精度向上への取り組み [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

「確信が持てない」で skip しない自動売買 — 判断 skip と条件 skip を分けた設計

「バックテストは勝つのにライブで負ける」を分解する

動画の特定領域を自動検出してモザイクをかけるWindowsツールを個人開発した話（Python/ONNX/ffmpeg）

MCPサーバーを本番でスケールさせる：Streamable HTTP・ステートレスセッション・能力発見の実装