【要約】Presidioで消せなかった文字起こしの個人情報、ローカルLLM(Strands Agents × Ollama)で消せるか試してみた [Qiita_Trend] | Summary by TechDistill
> Source: Qiita_Trend
Execute Primary Source
// Problem
開発者が、ASRログの個人情報保護において、表記の崩れにより従来の検知手法が機能しない問題に直面した。
- Presidio等のルール・NERベースでは、数字の読み上げによる表記変化を検知できない。
- 高性能なクラウドLLMを大量データに適用すると、トークン利用料が膨大になる。
- Presidio等のルール・NERベースでは、数字の読み上げによる表記変化を検知できない。
- 高性能なクラウドLLMを大量データに適用すると、トークン利用料が膨大になる。
// Approach
開発者が、精度とコストを両立させるため、ローカルLLMを用いた「抽出と監査」の2段構えの構成を採用した。
- LLMにはPIIの「列挙」のみをさせ、本文の書き換えを禁止して原文を保持する。
- 「抽出」フェーズの後に「監査」フェーズを設け、検知漏れや過剰検知を修正する。
- 小型モデル(4B)の精度低下に対し、監査プロンプトへのFew-shot追加とfuzzy照合で対応する。
- LLMにはPIIの「列挙」のみをさせ、本文の書き換えを禁止して原文を保持する。
- 「抽出」フェーズの後に「監査」フェーズを設け、検知漏れや過剰検知を修正する。
- 小型モデル(4B)の精度低下に対し、監査プロンプトへのFew-shot追加とfuzzy照合で対応する。
// Result
検証者が、Qwen3.5 4Bモデルを用いて、9Bモデルと同等の検知精度と高速な処理を実現した。
- 監査プロンプトの調整により、4Bモデルでも検知精度9/9、過剰検知0/3を達成した。
- 処理時間は9Bの約90秒から、4Bの約50秒へと大幅に短縮された。
- 監査プロンプトの調整により、4Bモデルでも検知精度9/9、過剰検知0/3を達成した。
- 処理時間は9Bの約90秒から、4Bの約50秒へと大幅に短縮された。
Senior Engineer Insight
> LLMに本文の書き換えをさせず「抽出」に徹させる設計は、データの整合性を守る上で極めて合理的だ。また、小型モデルの弱点をプロンプトと後段のアルゴリズム(監査・fuzzy照合)で補完する戦略は、実運用におけるコストと精度のトレードオフを制御する優れた解法である。GPU制約のある環境への展開を見据えた検証プロセスも、極めて実践的である。