New Codex features include the ability to use your computer in the background | TechDistill
> Source: Ars_Technica
Execute Primary Source
// Problem
従来の自動化手法はAPIの提供に依存しており、APIが公開されていないアプリケーションや、複雑なGUI操作を伴うワークフローの自動化が困難であった。また、自動化実行中にユーザーのデスクトップ操作が妨げられる、あるいは実行タイミングを柔軟に制御できないといった、人間との並行作業における制約が課題となっていた。
// Approach
Codexは、画面を視認し、クリックやタイピングを行うことで、GUIベースの操作を直接実行する手法を採用した。これにより、API非公開のアプリも操作可能としている。さらに、バックグラウンド実行によるユーザー作業との並行性の確保、タスクのスケジュール機能、およびアプリ内ブラウザを通じた視覚的なフィードバックループを実装することで、自律的なエージェントとしての能力を強化した。
// Result
開発者向けにはターミナル操作やGitHubレビューへの対応、一般業務向けには90種類のプラグインが追加された。これにより、Codexは単なる開発補助ツールを超え、ブラウザやエージェント機能を統合した「スーパーアプリ」へと進化する道筋を示した。今後はブラウザ制御のさらなる拡張が期待される。
Senior Engineer Insight
> GUI操作による自動化は、API未整備のシステムやフロントエンド検証において強力な武器となる。しかし、UIの微細な変更がエージェントの挙動を破壊する「脆さ」は避けられず、信頼性の担保が運用上の鍵となる。また、バックグラウンドで複数のエージェントを並行稼働させる際のローカルリソース(CPU/メモリ)の競合と、OSレベルの権限を扱うことによるセキュリティ境界の設計は、実戦投入における極めてシビアな検討事項だ。単なるツールではなく、エージェントがOSを制御する「エージェントOS」への変遷を感じさせる。