【要約】Amazon Transcribe カスタム言語モデルで「お食事券」と「汚職事件」を聞き分ける [Qiita_Trend] | Summary by TechDistill
> Source: Qiita_Trend
Execute Primary Source
// Problem
- ・標準の音声認識では、同音異義語の判別が困難。
- ・「おしょくじけん」という音に対し、文脈を無視して「お食事券」と誤認識する傾向がある。
- ・「汚職事件」とすべき場面でも、「汚食事件」などの不完全な文字起こしが発生する。
// Approach
1.「汚職事件」を含む例文を1,000個作成。
2.約50,000文字のテキストファイルをS3に保存。
3.Amazon Transcribeの「モデルをトレーニング」機能を使用。
4.S3上のデータを指定し、約4時間かけてカスタム言語モデルを構築。
// Result
- ・「汚職事件」が適切な文脈において、正しく認識される事例が増加。
- ・「お食事券」が適切な文脈での精度は維持。
- ・学習データに直接含まれる文章については、顕著な改善を確認。
Senior Engineer Insight
> CLMは文脈理解に強みを持つが、学習コストが高い。推奨される10万語以上のデータ確保は容易ではない。また、学習に数時間を要する点も考慮が必要。特定の単語をピンポイントで修正するなら、カスタムボキャブラリの方が運用効率は高い。実戦では、誤認識の性質に応じて両機能を使い分けるべきである。ドメイン特化の精度向上には、高品質なテキストデータの蓄積が不可欠となる。