【要約】VOICEVOX+ffmpegで「縦型ショート動画」を全自動生成するパイプラインを作った [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
開発者は、レビューサイトの集客用動画を量産する過程で、自動化における実務的な課題に直面した。特に、動画の品質維持と生成効率の両立が困難であった。
- ・
-c copyによる連結時の音ズレ。セグメント連結時にコンテナ由来の誤差が数百ms単位で累積する。 - ・視聴維持率を左右する字幕の演出。YouTube Shortsでは、字幕の視認性とポップな動きが不可欠である。
- ・Pexels APIのレートリミット。背景動画取得の際、APIの呼び出し制限に抵触する恐れがある。
// Approach
開発者は、各要素を独立したコンポーネントとして処理し、FFmpegで高度に統合する手法を採用した。
- ・VOICEVOXによる抑揚制御。疑問文の抑揚や「…」による間の調整を行う。
- ・HTML/Chromeによる透過PNG生成。タイトル帯をHTMLでデザインし、画像化する。
- ・ASS字幕によるポップアニメーション。字幕に拡大・縮小の動きを付与する。
- ・
apadとconcatフィルタによる再エンコード。音声を映像と完全同尺にし、誤差を防ぐ。 - ・MD5ハッシュによる動画キャッシュ。検索ワードに基づき背景動画を再利用する。
// Result
開発者は、動画生成の自動化により、コンテンツ制作における量産のボトルネックを解消した。
- ・動画生成時間の数分への短縮。台本さえあれば、ナレーション付き動画が即座に完成する。
- ・視聴維持率80%超の達成。字幕演出の最適化により、高い視聴維持率を実現した。
- ・LLM連携による完全自動化への展望。企画から公開までのフルオートメーション化が可能となる。
Senior Engineer Insight
> 動画編集のコード化は、量産において極めて強力だ。特にFFmpegのフィルタを用いた音ズレ対策は実戦的である。ただし、再エンコードを伴うため、大量生成時には計算リソースのスケールアウト設計が不可欠となる。