【要約】Testing suggests Google’s AI Overviews tell millions of lies per hour [Ars_Technica] | Summary by TechDistill

> Source: Ars_Technica

// Problem

生成AI特有のハルシネーション（幻覚）が、大規模検索サービスにおいて深刻な誤情報の拡散を招いている。特に、検索の利便性を高めるための要約機能が、ユーザーにソースを確認させず誤った情報を鵜呑みにさせるリスクを孕んでいる。また、モデルの非決定的な性質により、同一クエリでも回答が変動するため、一貫した品質保証が困難である。

// Approach

Googleは、クエリの性質に応じて最適なモデルを選択する戦略をとっている。高精度だが低速・高コストなGemini Proではなく、検索結果の迅速な表示を優先するため、高速かつ軽量なGemini Flashモデルを主軸に運用している。また、Web検索結果を根拠として利用するGrounding技術により、モデル単体よりも高い正確性を確保しようと試みている。

// Result

ベンチマーク（SimpleQA）を用いた検証では、Gemini 2.5の精度85%に対し、Gemini 3へのアップデート後は91%へと向上した。しかし、依然として10%の誤答率は残っており、Google側はベンチマークの妥当性に疑問を呈しているものの、生成AIの性質上、完全な正確性の実現には至っていない。

Senior Engineer Insight

> 大規模トラフィックを捌く現場において、90%の精度は「致命的な欠陥」である。10%の誤答が数百万件規模で発生する状況は、信頼性を至上命題とするシステムでは到底許容できない。Googleが採用している、低遅延・低コストなFlashモデルと高精度なProモデルを使い分ける「モデル・ルーティング」の手法は、スケーラビリティの観点からは極めて合理的だが、ユーザーの信頼を損なうリスクを孕んでいる。実戦投入においては、生成結果に対する検証レイヤーの構築、あるいは誤答時のフォールバック戦略、およびユーザーへの注意喚起の設計が不可欠である。

TechDistill.dev

【要約】Testing suggests Google’s AI Overviews tell millions of lies per hour [Ars_Technica] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

AI put “synthetic quotes” in his book. But this author wants to keep using it.

Using Kagi Search with Low Vision

Gemini randomly dumped its system prompt

Omni Flash API で画像・動画生成を統合する