【要約】AmiVoice + Claude で音声認識の「惜しい誤り」を直す [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
音声認識エンジニアは、ASR特有の「音は合っているが意味が通じない誤り」に直面する。具体的には、以下の問題が挙げられる。
- ・同音異義語の取り違え(例:「レンガ製」が「レンガ制」になる)。
- ・文の区切り誤りによる文脈の崩壊。
- ・従来の評価指標(CER)では、句読点の差など意味に影響しない誤りを排除できない点。
// Approach
検証者は、安価なASRの出力をLLMで修正する訂正パイプラインを構築した。手法の詳細は以下の通りである。
- ・AmiVoiceの信頼度スコアが0.8未満のトークンを抽出する。
- ・抽出したトークンを、LLMへの修正ヒントとしてプロンプトに組み込む。
- ・「迷ったら変更しない」という制約を設け、過剰訂正を抑制する。
- ・Claude Sonnet 4.6を用い、文脈に基づいた訂正を実行する。
- ・LLM-CERやIntent Scoreを用い、意味的な改善度を多角的に評価する。
// Result
検証の結果、低コストな構成で高精度なASRに迫る効果が得られた。具体的な成果は以下の通りである。
- ・CERが19.82%から18.82%へ5.0%改善した。
- ・意味的な指標であるLLM-CERが14.1%改善した。
- ・訂正の適用率は32.7%であり、多くを「修正不要」として維持できた。
Senior Engineer Insight
> コスト最適化の観点から、極めて実戦的なアプローチである。安価なASRにLLMを添える構成は、大規模な会議録生成などの用途で高い費用対効果を発揮するだろう。ただし、実運用ではLLMの推論レイテンシがボトルネックとなる。また、短文での過剰訂正は致命的な誤情報に繋がるため、信頼度スコアの閾値設計が運用の要となる。リアルタイム性が求められる現場では、このパイプラインの非同期処理設計が不可欠だ。