【要約】DeepSWE: A contamination-free benchmark for long-horizon coding agents [Hacker_News] | Summary by TechDistill

> Source: Hacker_News

Execute Primary Source

// Discussion Topic

DeepSWEは、コーディングエージェントの能力を測るベンチマークである。本スレッドでは、以下の点が議論されている。

・ベンチマークの飽和：初期スコアが70%と高く、モデルの進化ですぐに天井に達する懸念。
・評価の整合性：推論レベルの設定により、モデル間の性能順位が逆転する現象への疑義。

// Community Consensus

コミュニティは、ベンチマークの寿命と評価の妥当性に対して懐疑的な姿勢を見せている。

・批判的な意見：

- スコアの飽和：70%という数値は、最先端モデルが容易に到達可能なレベルである。
- 評価の矛盾：Opus 4.6とSonnet 4.6の比較において、推論レベルにより順位が逆転している。

・開発者の動き：

- Datacurveの共同創業者が、質問への回答を通じて議論に応じている。

// Alternative Solutions

特になし。

// Technical Terms

Senior Engineer Insight

> コーディングエージェントの評価において、汚染のないベンチマークは不可欠だ。しかし、初期スコアが70%に達している点は、実戦での差別化指標としては脆弱だ。モデルの進化速度を考慮すると、ベンチマークが即座に陳腐化するリスクがある。また、推論レベルによる性能の逆転は、評価指標の設計に課題がある可能性を示唆している。実戦投入の判断材料とするには、より難易度の高い、あるいは動的な評価系が必要だ。