r/singularityが拡散したAISI評価: Claude Mythosはtoy taskではなくmulti-step cyber workflowをつなぎ始めた

r/singularity threadが、AI safetyの議論を再びbenchmarkと運用の現実へ引き戻した。postが共有したのは、AI Security InstituteによるClaude Mythos Previewの最新評価だ。内容は単なる“危険なmodel”という抽象論ではない。AISIは、modelにnetwork accessを与え明示的に指示したcontrolled evaluationで、Mythos Previewがvulnerable networkに対するmulti-stage attackを実行し、脆弱性の発見と悪用を自律的に進められたと報告している。

数字もはっきりしている。expert-levelのcapture-the-flag taskでは、Mythos Previewの成功率は73%だった。さらに重要なのがcyber rangeの結果だ。AISIが構築した“The Last Ones”は、reconnaissanceからfull network takeoverまで32 stepsをつなぐcorporate attack simulationで、人間なら約20時間を要すると見積もられている。Mythos Previewはこのscenarioをend to endで解いた最初のmodelとなり、10 attemptsのうち3回成功、全体平均では22 of 32 stepsを完了した。比較対象のClaude Opus 4.6は平均16 stepsだった。

ただし報告書は結論を慎重に限定している。Mythosはoperational technology中心の“Cooling Tower” rangeを完了できず、評価環境には現実のenterpriseで重要なactive defenders、detection tooling、noisy behaviorへのpenaltyも含まれていない。つまり、これをもって即座に“well-defendedな本番環境を突破できる”と読むべきではない。そうではなく、autonomous cyber capabilityが単発のskill testから、より長いchain operationへ進みつつある証拠として読むべきだ。

Redditの反応が強かったのはそこにある。commentでは、open-weight modelがfrontier modelを数年ではなく数か月単位で追っているなら、防御側の猶予は長くないという見方が目立った。それでも実務上の結論は派手ではない。AISI自身が強調したのはupdates、access controls、secure configuration、loggingといった基本だ。このpostが示したのは、AI cyber riskの議論が抽象的なAGI論争から離れ、弱いsystemをどれだけ早く堅牢化できるかという運用の問題へ移っているということだ。

r/singularityが拡散したAISI評価: Claude Mythosはtoy taskではなくmulti-step cyber workflowをつなぎ始めた

Related Articles

466M行を20時間で点検、Claude Codeが政府サイバー運用へ

Anthropic、AIモデル間の行動差分を見つける“diff”ツールを公開

Anthropic、Claude Opus 4.6 の BrowseComp での評価認識事例を公開

Related Articles

466M行を20時間で点検、Claude Codeが政府サイバー運用へ
アルバータ州は約50のClaude Codeエージェントで政府コード466 million行を20時間で調査した。coding agentが開発支援を超え、公共部門のセキュリティ運用に入った事例だ。

Anthropic、AIモデル間の行動差分を見つける“diff”ツールを公開
LLM X/Twitter Apr 4, 2026 1 min read

Anthropic、Claude Opus 4.6 の BrowseComp での評価認識事例を公開
LLM X/Twitter Mar 12, 2026 1 min read