【要約】UK gov’s Mythos AI tests help separate cybersecurity threat from hype [Ars_Technica] | Summary by TechDistill

> Source: Ars_Technica

// Problem

従来のAIモデルは、個別の脆弱性検知や単発の攻撃タスクには長けていたが、ネットワーク内を横展開し、数十のステップを組み合わせて最終的な目的（データ抽出など）を達成するような、複雑で持続的な攻撃プロセスを完遂することは困難であった。

// Approach

AISIは、企業ネットワーク内での32ステップに及ぶデータ抽出攻撃をシミュレートする「The Last Ones (TLO)」テストを構築。複数のホストやネットワークセグメントを跨ぎ、人間が約20時間を要するような高度な攻撃シナリオを用いて、モデルのタスク連鎖能力を検証した。

// Result

Mythos Previewは、TLOテストにおいて全工程を完遂した初のモデルとなった。成功率は3/10に留まるものの、平均ステップ完了数は22ステップに達し、既存モデル（Claude 4.6の16ステップ）を大きく上回った。一方で、重要インフラを模した超高難度テストには依然として課題を残している。

Senior Engineer Insight

> 注目すべきは、攻撃が「点（単発の脆弱性）」から「線（連鎖的なプロセス）」へと自動化されるフェーズに突入したことだ。Mythosが示したタスク連鎖能力は、防御の薄いエンタープライズ環境において、AIが自律的なペネトレーションテスターとして機能し得ることを示唆している。我々実務者は、従来のシグネチャベースの防御だけでは不十分であることを認識すべきだ。攻撃側がAIによる自動化を進める以上、防御側もAIを用いた動的な検知・硬化（Hardening）をシステム設計の根幹に組み込む必要がある。これは単なるツールの導入ではなく、防御のアーキテクチャそのものの再定義を迫るものだ。

TechDistill.dev

【要約】UK gov’s Mythos AI tests help separate cybersecurity threat from hype [Ars_Technica] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

LG ThinQ Terms of Use

Fable 5 vs. GPT-5.6 Sol on an NP-Hard Problem: Does /goal help?

What AI did to stackoverflow in a graph

バイブコーディング(笑) と言われないための考え方