【要約】Project Glasswing: An Initial Update [Hacker_News] | Summary by TechDistill

> Source: Hacker_News

// Discussion Topic

Anthropicは、Mythos Previewを用いてFirefox 150において271件の脆弱性を発見したと報告した。この発表を受け、技術的な実効性を巡って以下の論点が議論されている。

・既存の高性能モデル（Opus 4.7等）と比較して、何が決定的に優れているのかという検証不足。
・30B程度の比較的小規模なパラメータを持つLLMでも、同様の脆弱性発見が可能であるという指摘。
・発見された脆弱性のうち、実際に有効なものがどれほど含まれているかという精度の問題。

// Community Consensus

コミュニティの反応は、Anthropicの発表を「大規模なマーケティング」と捉える懐疑論が支配的である。議論は以下の構造に整理される。

・批判的な意見:

- 30B程度のパラメータを持つLLMでもFirefoxの脆弱性を発見できたという研究報告がある。
- 提示された脆弱性の多くが、実際には機能しない「偽陽性」である疑いがある。
- Mythosが一般公開（GA）されておらず、第三者による検証が不可能である。

・肯定的な意見:

- 機能面での類似性はあっても、消費するトークン量における効率性が高い可能性がある。

// Alternative Solutions

議論の中で、以下の代替的なアプローチやツールが言及されている。

・30Bパラメータ程度の小規模なLLMを用いたセキュリティ研究。
・Xbowによる、より定量的で実戦的な評価手法。

// Technical Terms

Senior Engineer Insight

> 「発見数」という数字のトリックに警戒せよ。セキュリティの現場において、大量の偽陽性は調査コストを増大させるだけのノイズでしかない。本件においても、curlの例に見られるように、発見された脆弱性の実効性が極めて不透明である。我々が評価すべきは、モデルの規模ではなく「真の脆弱性を特定する精度」と「調査に必要なトークンコスト」だ。現段階では、Mythosを実戦投入する価値があるとは判断できない。まずは、既存の小規模モデルに対するコストパフォーマンスと、偽陽性率の定量的なデータが揃うのを待つべきである。