【要約】DeepSWE: A contamination-free benchmark for long-horizon coding agents [Hacker_News] | Summary by TechDistill
> Source: Hacker_News
Execute Primary Source
// Discussion Topic
DeepSWEは、コーディングエージェントの能力を測るベンチマークである。本スレッドでは、以下の点が議論されている。
- ・ベンチマークの飽和:初期スコアが70%と高く、モデルの進化ですぐに天井に達する懸念。
- ・評価の整合性:推論レベルの設定により、モデル間の性能順位が逆転する現象への疑義。
// Community Consensus
コミュニティは、ベンチマークの寿命と評価の妥当性に対して懐疑的な姿勢を見せている。
- 評価の矛盾:Opus 4.6とSonnet 4.6の比較において、推論レベルにより順位が逆転している。
- ・批判的な意見:
- 評価の矛盾:Opus 4.6とSonnet 4.6の比較において、推論レベルにより順位が逆転している。
- ・開発者の動き:
// Alternative Solutions
特になし。
// Technical Terms
Senior Engineer Insight
> コーディングエージェントの評価において、汚染のないベンチマークは不可欠だ。しかし、初期スコアが70%に達している点は、実戦での差別化指標としては脆弱だ。モデルの進化速度を考慮すると、ベンチマークが即座に陳腐化するリスクがある。また、推論レベルによる性能の逆転は、評価指標の設計に課題がある可能性を示唆している。実戦投入の判断材料とするには、より難易度の高い、あるいは動的な評価系が必要だ。