【Nishika 論文サク読み第4回】EmoVoice

> Source: Zenn_Python

// Problem

従来のTTSは「話速」や「声量」といった限定的なパラメータ制御に依存しており、ユーザーが意図する「複雑で微細な感情表現」を直感的に指示することが困難であった。また、音声生成における読み間違い（WERの悪化）も、実用的な音声合成における重要な技術的課題となっていた。

// Approach

Qwen2.5をバックボーンとし、感情記述を含む自然言語プロンプトから音声トークンを自己回帰的に生成する。音素トークンを音声と並行出力する「EmoVoice-PP」により読み間違いを抑制し、1ステップで3トークンを予測するグループトークンモデリングで学習を高速化。データセットはGPT-4oを用いた合成データで構築した。

// Result

WER（単語誤り率）2.62〜2.73という極めて高い正確性を実現。感情類似度の評価においても、emotion2vecを用いた比較で1.5Bモデルが最高性能を記録した。自然言語による高度な感情制御と、正確なテキスト読み上げを高い次元で両立することに成功している。

Senior Engineer Insight

> LLMの推論能力を音声生成に転用するアプローチは、感情表現の柔軟性において極めて強力だ。特に音素トークンをガイドとして用いる設計は、実用上の「読み間違い」という致命的な欠陥を回避する賢明な判断と言える。ただし、大規模LLMをバックボーンとする以上、推論レイテンシと計算リソースのコストが運用上の最大の懸念点となる。プロダクション環境、特にリアルタイム性が求められる対話型エージェントへの投入には、モデルの量子化、蒸留、あるいは推論エンジンの高度な最適化が不可欠である。