【速報】Anthropic最新AI、Claude Mythos(ミトス)の性能が桁外れだった件について。性能が高すぎて、Anthropic側が一般公開を行わない事態に | TechDistill
> Source: Qiita_Trend
Execute Primary Source
// Problem
従来のAIモデルは脆弱性の発見には寄与するものの、実用的なエクスプロイト(攻撃コード)の生成能力は限定的であった。また、既存のベンチマークでは、高度な推論や複雑なコードベースにおける脆弱性、および長大な文脈における論理的整合性を十分に評価できていなかった。
// Approach
特定のセキュリティ訓練ではなく、コード、推論、自律性の汎用的な改善を通じて、セキュリティ能力を「創発」させた。Project Glasswingを通じて、主要な技術企業と連携し、防御側がこれらの能力を安全かつ効率的に活用できるエコシステムの構築を目指している。
// Result
Cybenchで100%を達成し、SWE-benchや数学、長文脈推論においても競合モデルを圧倒。OpenBSDやFFmpeg等の実在する脆弱性を発見した。現在は攻撃者への悪用リスクを考慮し、招待制のリサーチプレビューとして限定提供されている。
Senior Engineer Insight
> 驚異的な性能だが、実戦投入には「コスト」と「リスク」の天秤が不可欠だ。Opusの5倍という価格は、大規模な自動スキャンには不向きだが、高度なセキュリティ監査やクリティカルなコードレビューには極めて強力な武器となる。特筆すべきは、エクスプロイト生成の自律性だ。これは防御側にとって「攻撃のスピード」を劇的に上げる武器になる一方で、ガバナンスを欠いた利用は自社インフラの脆弱化を招きかねない。DevSecOpsへの組み込みには、厳格なサンドボックス環境と人間によるトリアージのプロセスが必須となるだろう。