【要約】SWE-bench Pro完全解説 設計思想・タスク構成・失敗モード分析まで [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
- ・SWE-bench Verifiedにおける深刻なデータ汚染。GPT-5.2等のモデルで正解パッチの再現を確認。
- ・エージェントのスキャフォールディングによるスコアの不透明性。
- ・従来のタスクが「1ファイルの数行修正」と単純すぎた点。
- ・モデルの能力と評価インフラの差が判別困難な状況。
// Approach
1.3層サブセット構成(Public/Private/Held-out)による汚染対策。
2.ライセンス、アクセス、検証、品質による多層防御の構築。
3.人間による要件仕様(Requirements Specification)の補完。
4.Docker環境を用いた再現性の高い評価基盤の構築。
5.fail-to-passとpass-to-passの両条件を満たすResolve Rateによる評価。
// Result
- ・Verified比でスコアが約35ポイント低下し、測定精度を補正。
- ・GPT-5.4 (xHigh) が59.10%でトップとなる差別化に成功。
- ・失敗モード(セマンティック理解、コンテキスト、ツール使用)を定量的に特定。
- ・スキャフォールディングの設計差が5ポイント以上の影響を与えることを解明。
Senior Engineer Insight
> モデルの性能向上以上に、スキャフォールディングの最適化が重要である。同一モデルでもシステム設計次第で5ポイント以上の差が生じる。実務では「複数ファイルへの影響」を考慮した計画性が不可欠。評価には高い計算資源とDocker環境が必要となる。単なるコード生成能力ではなく、コードベース全体の文脈理解とツール使用の信頼性が、次世代エージェントの分水嶺となる。