【要約】Presidioで消せなかった文字起こしの個人情報、ローカルLLM(Strands Agents × Ollama)で消せるか試してみた [Qiita_Trend] | Summary by TechDistill

> Source: Qiita_Trend

// Problem

開発者が、ASRログの個人情報保護において、表記の崩れにより従来の検知手法が機能しない問題に直面した。
- Presidio等のルール・NERベースでは、数字の読み上げによる表記変化を検知できない。
- 高性能なクラウドLLMを大量データに適用すると、トークン利用料が膨大になる。

// Approach

開発者が、精度とコストを両立させるため、ローカルLLMを用いた「抽出と監査」の2段構えの構成を採用した。
- LLMにはPIIの「列挙」のみをさせ、本文の書き換えを禁止して原文を保持する。
- 「抽出」フェーズの後に「監査」フェーズを設け、検知漏れや過剰検知を修正する。
- 小型モデル（4B）の精度低下に対し、監査プロンプトへのFew-shot追加とfuzzy照合で対応する。

// Result

検証者が、Qwen3.5 4Bモデルを用いて、9Bモデルと同等の検知精度と高速な処理を実現した。
- 監査プロンプトの調整により、4Bモデルでも検知精度9/9、過剰検知0/3を達成した。
- 処理時間は9Bの約90秒から、4Bの約50秒へと大幅に短縮された。

Senior Engineer Insight

> LLMに本文の書き換えをさせず「抽出」に徹させる設計は、データの整合性を守る上で極めて合理的だ。また、小型モデルの弱点をプロンプトと後段のアルゴリズム（監査・fuzzy照合）で補完する戦略は、実運用におけるコストと精度のトレードオフを制御する優れた解法である。GPU制約のある環境への展開を見据えた検証プロセスも、極めて実践的である。

TechDistill.dev

【要約】Presidioで消せなかった文字起こしの個人情報、ローカルLLM(Strands Agents × Ollama)で消せるか試してみた [Qiita_Trend] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Elevated errors on Claude Opus 5

Claude Opus 5の1Mコンテキストを活かす——長文コードベース要約パイプラインをPython組む

Python を使用して PDF を SVG に変換する

Poetry(Python)×Node.js環境での複数AIエージェントのコード標準化とObsidian自動メンテナンス