【要約】猫でもわかるHiFi-GAN ― メルスペクトログラムを音にするGANボコーダ [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

音声合成（TTS）のプロセスにおいて、音響モデルが生成した中間表現を波形に戻す際に課題が生じる。具体的には、以下の問題に直面する。

・メルスペクトログラムは生成過程で位相情報を欠落している。
・80次元の低解像度データから、高解像度な波形を復元せねばならない。
・単純な逆変換では、自然な音声を生成できない。

// Approach

HiFi-GANは、1つの生成器と2種類の識別器を競わせるGANの仕組みを採用した。具体的な手法は以下の通りである。

・Generator: 転置畳み込みとMRFを用い、多角的な受容野で波形を拡大する。
・MPD: 波形を周期ごとに2Dへリシェイプし、素数周期のパターンを判定する。
・MSD: 異なるスケールで波形の連続性を判定する。
・Loss: 敵対的損失に加え、設計図への忠実性を高めるメルスペクトログラム損失を導入する。

// Result

本手法の導入により、高品質な音声合成と高速な推論が両立された。主な成果は以下の通りである。

・人間とほぼ聴き分けられない品質（MOS差 0.09）を達成した。
・V100 GPUで実時間の167.9倍という高速合成を実現した。
・用途に応じた3種のモデル（V1/V2/V3）により、柔軟な選択が可能となった。

Senior Engineer Insight

> TTSのデコーダとして極めて実用的だ。MPDによる周期性の抽出は、音声の物理的特性を捉えた優れた設計である。V1からV3までのモデル展開は、インフラコストの最適化を容易にする。クラウドでの大量処理からエッジでのリアルタイム動作まで、柔軟な運用が可能だ。推論時は、学習時と同一のFFT設定を維持することが不可欠である。

TechDistill.dev

【要約】猫でもわかるHiFi-GAN ― メルスペクトログラムを音にするGANボコーダ [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

はじめてのOpenJTalk

TTSの測り方 `nocall-tts-eval`

Claude APIのストリーミング応答をROS2で使う【リアルタイム音声合成・UI更新】

10秒音声で7言語ゼロショット生成比較（F5・XTTS・OpenVoice・ElevenLabs）