【要約】SWE-bench Pro完全解説設計思想・タスク構成・失敗モード分析まで [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

・SWE-bench Verifiedにおける深刻なデータ汚染。GPT-5.2等のモデルで正解パッチの再現を確認。
・エージェントのスキャフォールディングによるスコアの不透明性。
・従来のタスクが「1ファイルの数行修正」と単純すぎた点。
・モデルの能力と評価インフラの差が判別困難な状況。

// Approach

1.3層サブセット構成（Public/Private/Held-out）による汚染対策。

2.ライセンス、アクセス、検証、品質による多層防御の構築。

3.人間による要件仕様（Requirements Specification）の補完。

4.Docker環境を用いた再現性の高い評価基盤の構築。

5.fail-to-passとpass-to-passの両条件を満たすResolve Rateによる評価。

// Result

・Verified比でスコアが約35ポイント低下し、測定精度を補正。
・GPT-5.4 (xHigh) が59.10%でトップとなる差別化に成功。
・失敗モード（セマンティック理解、コンテキスト、ツール使用）を定量的に特定。
・スキャフォールディングの設計差が5ポイント以上の影響を与えることを解明。

Senior Engineer Insight

> モデルの性能向上以上に、スキャフォールディングの最適化が重要である。同一モデルでもシステム設計次第で5ポイント以上の差が生じる。実務では「複数ファイルへの影響」を考慮した計画性が不可欠。評価には高い計算資源とDocker環境が必要となる。単なるコード生成能力ではなく、コードベース全体の文脈理解とツール使用の信頼性が、次世代エージェントの分水嶺となる。

TechDistill.dev

【要約】SWE-bench Pro完全解説設計思想・タスク構成・失敗モード分析まで [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Show HN: A new benchmark for testing LLMs for deterministic outputs

I built ten custom subagents to tame a 500K-line Clojure codebase

He asked AI to count carbs 27000 times. It couldn't give the same answer twice

Bugs Rust Won't Catch