【要約】Gemini 3.5 Flashのcomputer useがブラウザもスマホもPCも操作する [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
AIエージェントの開発者は、従来の画面操作においてモデルの使い分けという課題に直面していた。具体的には以下の問題が存在する。
- ・会話用モデルと操作用モデルを個別に呼び出す必要があり、実装が複雑であった。
- ・操作対象がWebブラウザ中心であり、モバイルやデスクトップへの対応が不十分であった。
- ・画面上のテキストを命令と誤認させる「間接プロンプトインジェクション」のリスクがあった。
// Approach
GoogleはGemini 3.5 Flashに画面操作機能をネイティブに統合し、操作環境の拡大を実現した。主な手法は以下の通りである。
- ・Interactions APIを用い、「見る→決める→操作→撮り直す」のループ構造を採用した。
- ・environment指定により、browser、mobile、desktopの操作を可能にした。
- ・座標を0〜999の正規化座標で返し、クライアント側での実行を容易にした。
- ・操作の意図(intent)を併せて出力し、デバッグや監査の容易性を確保した。
- ・プロンプトインジェクション検知機能などの安全機構を導入した。
// Result
Gemini 3.5 Flashの導入により、エージェント開発の複雑性が大幅に軽減された。成果は以下の通りである。
- ・OS操作のベンチマークOSWorld-Verifiedにおいて78.4%の精度を記録した。
- ・会話と操作を同一モデルで完結でき、エージェント実装の分岐が不要になった。
- ・API未整備の社内ツールや、継続的なソフトウェアテストの自動化への道筋が示された。
Senior Engineer Insight
> モデルの統合は、エージェント開発のDXを劇的に向上させる。会話と操作の分岐が消えるメリットは大きい。しかし、実運用では「サンドボックス化」と「人間による承認」が必須だ。CAPTCHAや動的レイアウトへの脆弱性は依然として残る。完全自動化を狙わず、不可逆操作に人間を介在させる設計が、現場での現実的な導入ラインとなる。