Testing suggests Google’s AI Overviews tell millions of lies per hour
> Source: Ars_Technica
Execute Primary Source
// Problem
生成AI特有のハルシネーション(幻覚)が、大規模検索サービスにおいて深刻な誤情報の拡散を招いている。特に、検索の利便性を高めるための要約機能が、ユーザーにソースを確認させず誤った情報を鵜呑みにさせるリスクを孕んでいる。また、モデルの非決定的な性質により、同一クエリでも回答が変動するため、一貫した品質保証が困難である。
// Approach
Googleは、クエリの性質に応じて最適なモデルを選択する戦略をとっている。高精度だが低速・高コストなGemini Proではなく、検索結果の迅速な表示を優先するため、高速かつ軽量なGemini Flashモデルを主軸に運用している。また、Web検索結果を根拠として利用するGrounding技術により、モデル単体よりも高い正確性を確保しようと試みている。
// Result
ベンチマーク(SimpleQA)を用いた検証では、Gemini 2.5の精度85%に対し、Gemini 3へのアップデート後は91%へと向上した。しかし、依然として10%の誤答率は残っており、Google側はベンチマークの妥当性に疑問を呈しているものの、生成AIの性質上、完全な正確性の実現には至っていない。
Senior Engineer Insight
> 大規模トラフィックを捌く現場において、90%の精度は「致命的な欠陥」である。10%の誤答が数百万件規模で発生する状況は、信頼性を至上命題とするシステムでは到底許容できない。Googleが採用している、低遅延・低コストなFlashモデルと高精度なProモデルを使い分ける「モデル・ルーティング」の手法は、スケーラビリティの観点からは極めて合理的だが、ユーザーの信頼を損なうリスクを孕んでいる。実戦投入においては、生成結果に対する検証レイヤーの構築、あるいは誤答時のフォールバック戦略、およびユーザーへの注意喚起の設計が不可欠である。