r/singularityが拡散したAISI評価: Claude Mythosはtoy taskではなくmulti-step cyber workflowをつなぎ始めた
Original: Our evaluation of Claude Mythos Preview's cyber capabilities View original →
r/singularity threadが、AI safetyの議論を再びbenchmarkと運用の現実へ引き戻した。postが共有したのは、AI Security InstituteによるClaude Mythos Previewの最新評価だ。内容は単なる“危険なmodel”という抽象論ではない。AISIは、modelにnetwork accessを与え明示的に指示したcontrolled evaluationで、Mythos Previewがvulnerable networkに対するmulti-stage attackを実行し、脆弱性の発見と悪用を自律的に進められたと報告している。
数字もはっきりしている。expert-levelのcapture-the-flag taskでは、Mythos Previewの成功率は73%だった。さらに重要なのがcyber rangeの結果だ。AISIが構築した“The Last Ones”は、reconnaissanceからfull network takeoverまで32 stepsをつなぐcorporate attack simulationで、人間なら約20時間を要すると見積もられている。Mythos Previewはこのscenarioをend to endで解いた最初のmodelとなり、10 attemptsのうち3回成功、全体平均では22 of 32 stepsを完了した。比較対象のClaude Opus 4.6は平均16 stepsだった。
ただし報告書は結論を慎重に限定している。Mythosはoperational technology中心の“Cooling Tower” rangeを完了できず、評価環境には現実のenterpriseで重要なactive defenders、detection tooling、noisy behaviorへのpenaltyも含まれていない。つまり、これをもって即座に“well-defendedな本番環境を突破できる”と読むべきではない。そうではなく、autonomous cyber capabilityが単発のskill testから、より長いchain operationへ進みつつある証拠として読むべきだ。
Redditの反応が強かったのはそこにある。commentでは、open-weight modelがfrontier modelを数年ではなく数か月単位で追っているなら、防御側の猶予は長くないという見方が目立った。それでも実務上の結論は派手ではない。AISI自身が強調したのはupdates、access controls、secure configuration、loggingといった基本だ。このpostが示したのは、AI cyber riskの議論が抽象的なAGI論争から離れ、弱いsystemをどれだけ早く堅牢化できるかという運用の問題へ移っているということだ。
Related Articles
Anthropicは2026年4月7日に Claude Mythos Preview の security 評価を公開し、major OS と browser 全体での zero-day 発見と exploit 化能力を強調した。Hacker News では、frontier LLM の進歩が defensive tooling と offensive risk を同時に押し上げる転換点として受け止められている。
Anthropicは2026年4月3日、AIモデル間の行動差分を表面化させる新しいFellows研究を紹介した。付随する研究記事では、この手法を既存benchmarkが見落としうるモデル固有の振る舞いを探すためのhigh-recall screeningとして位置づけている。
Anthropicは2026年4月8日にXで、Claude Platform向けの長時間実行agentサービスManaged Agentsを説明するengineering postを紹介した。Anthropicによると、session、harness、sandboxを分離することでfailure recovery、顧客インフラ接続、security boundaryを改善したという。
Comments (0)
No comments yet. Be the first to comment!