【要約】相手の声をローカルで字幕化して『返答案』まで出す通訳ツールを作った(Koe Interpreter) [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
開発者は、英語の通話における聞き取りと適切な返答を同時に行う困難さに直面した。また、業務上の機密保持のため、クラウドサービスへの音声送信ができない制約があった。
- ・音声ライブラリの環境依存による録音失敗。
- ・小規模LLMによる翻訳精度の低下と他言語の混入。
- ・VAD(発話区間検出)のしきい値調整の煩雑さ。
// Approach
開発者は、既存のローカル音声入力ツールの基盤を拡張し、ループバック録音とLLMを組み合わせた構成を採用した。
- ・PyAudioWPatchによるWASAPIループバックの採用。
- ・qwen2.5:14bへのモデル変更と簡体字検知ガードの実装。
- ・起動時のノイズフロア測定によるVADしきい値の自動校正。
- ・3スレッド分離による音声キャプチャと推論の並列化。
// Result
開発者は、音声データを外部に流出させることなく、実用的な速度で字幕と返答案を提供する仕組みを構築した。
- ・字幕の体感遅延を0.7〜1.3秒に抑制。
- ・14bモデルの採用により、翻訳の品質を向上。
- ・自動校正機能により、環境に依存しない安定した動作を実現。
Senior Engineer Insight
> 機密性が求められる現場での実用性が極めて高い。特に「計測に基づき、ストリーミング実装を回避した」判断は、過剰な最適化を防ぐ優れた設計思想だ。ただし、14bモデルの運用には一定のGPUリソースが必須となる。実戦投入には、ハードウェアスペックに応じたモデルの動的切り替え機能が望ましい。