小型 Open model でも Mythos 級の脆弱性分析は再現できる

何が主張されているのか

2026年4月7日に公開されたAISLEの記事は、2026年4月12日時点でHacker Newsの802 points、218 commentsを集めた。内容はAnthropicのMythos PreviewとProject Glasswingの発表への正面からの応答であり、限定公開のAIが重要ソフトウェアの深刻な脆弱性を見つけ、exploitまで組み立てられるという物語に対して、AISLEはカテゴリ自体は本物だと認めつつ、優位性の源泉は単一のfrontier modelより周辺システムにあると述べている。

AISLEが重視するのは、AI securityを一つの能力として扱わないことだ。大規模codebaseの探索、脆弱性検出、false positiveの切り分け、patch生成、exploit構築はそれぞれ別の作業で、scalingの仕方も違うという見方である。そこで関連するcode pathを先に切り出して評価すると、小型で安価なmodelでも予想以上に強い結果が出たという。

記事が示したポイント

AISLEによれば、検証した8つのmodelすべてがFreeBSD NFSの代表的な問題を検出した。
その中には3.6B active parametersのmodelも含まれ、価格は1M tokensあたり$0.11だった。
5.1B-activeのopen modelは、古いOpenBSD SACK bugの中核的な分析チェーンを再現したという。
基本的なsecurity reasoning課題では、小型open modelが複数のfrontier modelを上回る例も示された。

なぜ重要なのか

AISLE自身、この実験はrepository全体を完全自律で探索するend-to-end testではなく、より狭いprobeだったと明記している。その留保を踏まえても、能力が滑らかに伸びるのではなくtaskごとにjaggedだという指摘は重要だ。もしそうなら、競争力を決めるのはmodel sizeだけではなく、orchestration、validation、throughput、そしてmaintainer trustになる。防御側にとっては、高価な単一modelに依存するより、安価なmodelを広く走らせてcoverageを取り、専門的なscaffoldで結果を絞り込む方が現実的かもしれない。

原文: AISLE. Hacker News discussion: thread.

小型 Open model でも Mythos 級の脆弱性分析は再現できる

何が主張されているのか

記事が示したポイント

なぜ重要なのか

Related Articles

Mythos級セキュリティ解析は frontier model 専用か、Reddit が掘り下げた検証

AIが重大脆弱性1万件を発見、次の制約はパッチ適用速度

Hacker Newsで続いたMythos後の論争: 小さなopen-weight modelでもAI security分析の一部を再現できるのか

Comments (0)

Leave a Comment