【要約】Audit finds Ontario doctors' AI scribes inventing key medical details [Ars_Technica] | Summary by TechDistill
> Source: Ars_Technica
Execute Primary Source
// Problem
オンタリオ州の医師たちは、業務負担を軽減するためにAI scribeの導入を進めている。しかし、AIが生成する要約が、患者の健康に直結する重大な誤情報を生むリスクが判明した。
- ・存在しない検査や治療の紹介を捏造する(ハルシネーション)。
- ・処方薬の名前を誤って記録する。
- ・精神衛生に関する重要な詳細を見落とす。
- ・不適切な評価基準により、低品質な製品が承認されていた。
// Approach
監査官は、州政府が承認した20社のベンダーに対し、検証テストを実施した。模擬的な会話を用いて、要約の精度と完全性を評価した。
- ・20社すべてが、少なくとも1つのテストで不備を示した。
- ・評価指標のウェイト設定の不備を特定した。
- ・「正確性」の配点が全体の4%と極めて低かった。
- ・IT部門に対し、医師による最終確認の義務化を推奨した。
// Result
監査の結果、承認済みベンダーの多くが医療用途に不適格であることが判明した。検証されたベンダーの多くが、安全性に欠ける挙動を示した。
- ・9社が患者情報の捏造(ハルシネーション)を確認。
- ・12社が情報の誤記録を確認。
- ・17社が精神衛生に関する重要情報の欠落を確認。
- ・評価指標の欠陥により、不適切な製品が承認されていた。
Senior Engineer Insight
> LLMをミッションクリティカルな領域に投入する際の、評価指標(Metric)の設計ミスが露呈した。「正確性」を4%という低配点に設定した評価プロセスは、技術的観点から見て致命的である。実運用では、モデルの性能以上に、人間による検証(Human-in-the-loop)のワークフロー設計が重要だ。ハルシネーションを前提としたガードレール実装が不可欠である。