【要約】猫でもわかるHiFi-GAN ― メルスペクトログラムを音にするGANボコーダ [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
音声合成(TTS)のプロセスにおいて、音響モデルが生成した中間表現を波形に戻す際に課題が生じる。具体的には、以下の問題に直面する。
- ・メルスペクトログラムは生成過程で位相情報を欠落している。
- ・80次元の低解像度データから、高解像度な波形を復元せねばならない。
- ・単純な逆変換では、自然な音声を生成できない。
// Approach
HiFi-GANは、1つの生成器と2種類の識別器を競わせるGANの仕組みを採用した。具体的な手法は以下の通りである。
- ・Generator: 転置畳み込みとMRFを用い、多角的な受容野で波形を拡大する。
- ・MPD: 波形を周期ごとに2Dへリシェイプし、素数周期のパターンを判定する。
- ・MSD: 異なるスケールで波形の連続性を判定する。
- ・Loss: 敵対的損失に加え、設計図への忠実性を高めるメルスペクトログラム損失を導入する。
// Result
本手法の導入により、高品質な音声合成と高速な推論が両立された。主な成果は以下の通りである。
- ・人間とほぼ聴き分けられない品質(MOS差 0.09)を達成した。
- ・V100 GPUで実時間の167.9倍という高速合成を実現した。
- ・用途に応じた3種のモデル(V1/V2/V3)により、柔軟な選択が可能となった。
Senior Engineer Insight
> TTSのデコーダとして極めて実用的だ。MPDによる周期性の抽出は、音声の物理的特性を捉えた優れた設計である。V1からV3までのモデル展開は、インフラコストの最適化を容易にする。クラウドでの大量処理からエッジでのリアルタイム動作まで、柔軟な運用が可能だ。推論時は、学習時と同一のFFT設定を維持することが不可欠である。