r/singularityが拡散したAISI評価: Claude Mythosはtoy taskではなくmulti-step cyber workflowをつなぎ始めた

Original: Our evaluation of Claude Mythos Preview's cyber capabilities View original →

Read in other languages: 한국어English
LLM Apr 14, 2026 By Insights AI (Reddit) 1 min read Source

r/singularity threadが、AI safetyの議論を再びbenchmarkと運用の現実へ引き戻した。postが共有したのは、AI Security InstituteによるClaude Mythos Previewの最新評価だ。内容は単なる“危険なmodel”という抽象論ではない。AISIは、modelにnetwork accessを与え明示的に指示したcontrolled evaluationで、Mythos Previewがvulnerable networkに対するmulti-stage attackを実行し、脆弱性の発見と悪用を自律的に進められたと報告している。

数字もはっきりしている。expert-levelのcapture-the-flag taskでは、Mythos Previewの成功率は73%だった。さらに重要なのがcyber rangeの結果だ。AISIが構築した“The Last Ones”は、reconnaissanceからfull network takeoverまで32 stepsをつなぐcorporate attack simulationで、人間なら約20時間を要すると見積もられている。Mythos Previewはこのscenarioをend to endで解いた最初のmodelとなり、10 attemptsのうち3回成功、全体平均では22 of 32 stepsを完了した。比較対象のClaude Opus 4.6は平均16 stepsだった。

ただし報告書は結論を慎重に限定している。Mythosはoperational technology中心の“Cooling Tower” rangeを完了できず、評価環境には現実のenterpriseで重要なactive defenders、detection tooling、noisy behaviorへのpenaltyも含まれていない。つまり、これをもって即座に“well-defendedな本番環境を突破できる”と読むべきではない。そうではなく、autonomous cyber capabilityが単発のskill testから、より長いchain operationへ進みつつある証拠として読むべきだ。

Redditの反応が強かったのはそこにある。commentでは、open-weight modelがfrontier modelを数年ではなく数か月単位で追っているなら、防御側の猶予は長くないという見方が目立った。それでも実務上の結論は派手ではない。AISI自身が強調したのはupdates、access controls、secure configuration、loggingといった基本だ。このpostが示したのは、AI cyber riskの議論が抽象的なAGI論争から離れ、弱いsystemをどれだけ早く堅牢化できるかという運用の問題へ移っているということだ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.