【開発日記:#4】音楽創造アプリに組み込む音楽生成AIの選定とAPI検証の意思決定プロセス
> Source: Zenn_Python
Execute Primary Source
// Problem
音楽生成AIにおいて、自然言語プロンプトのみに依存する手法では、BPMやキーといった特定の音響パラメータを正確に制御できない。アプリの核となる「診断結果に基づいた正確な音楽生成」を実現するには、数値による直接的な制御が不可欠であった。
// Approach
Mureka APIの検証でパラメータ反映の低さを確認後、数値指定が可能なGoogle Lyria RealTime APIを採用。WebSocketを用いた接続、densityやbrightness等のパラメータ制御、およびDemucs v4による音源分離を用いた、伴奏とメロディの分離フローを検証した。
// Result
Lyria RealTimeは、Murekaと比較して音響パラメータの反映精度が大幅に向上した。また、VOCALIZATIONモードとdensityパラメータの調整、およびDemucs v4の組み合わせにより、生成した音楽からメロディ層と伴奏層を分離するワークフローの確立に成功した。
Senior Engineer Insight
> 生成AIの制御において、プロンプトエンジニアリングの限界を認め、APIレベルでのパラメータ制御へ移行する判断は極めて合理的である。WebSocketによるストリーミングと音源分離技術を組み合わせることで、生成物の構造的制御が可能となる。