【要約】Amid Mythos’ hyped cybersecurity prowess, researchers find GPT-5.5 is just as good [Ars_Technica] | Summary by TechDistill
> Source: Ars_Technica
Execute Primary Source
// Problem
AI開発企業がモデルの危険性を強調する中、脅威の性質が不明確であった。AnthropicはMythos Previewの脅威を強調し、限定公開を行った。サイバー攻撃能力の向上が、モデル固有の特性か汎用的な能力向上によるものか、検証が必要であった。
// Approach
AISIは、AIモデルのサイバー攻撃能力を定量的に評価するため、多角的なテストを実施した。AISIは95種類のCTFチャレンジを用いて、モデルの能力を検証した。具体的には以下の手法を用いた。
- ・リバースエンジニアリング、Web脆弱性、暗号学などのタスク評価。
- ・32ステップのデータ抽出攻撃を模した「The Last Ones (TLO)」の実施。
- ・物理インフラ制御への攻撃を模した「Cooling Tower」シミュレーション。
// Result
GPT-5.5は、Mythos Previewと同等、あるいはそれ以上の性能を記録した。AISIのテストにおいて、GPT-5.5は以下の成果を示した。
- ・Expertタスクの合格率:71.4%を記録し、Mythosの68.6%を上回った。
- ・Rustバイナリ解析:10分22秒、コスト$1.73でデアセンブラを構築した。
- ・TLOテスト:10回中3回の成功を収め、Mythosの2回を上回った。
Senior Engineer Insight
> サイバー能力の向上は、推論やコーディングといった汎用能力の向上に起因する。これは、特定の攻撃モデルより、モデル全体の自律性の進化を注視すべきことを示唆する。防御側の自動化には極めて有用だが、攻撃の自動化リスクも同時に高まる。実戦投入時は、APIコストと解析精度のバランスを評価すべきである。