r/singularityが拡散したAISI評価: Claude Mythosはtoy taskではなくmulti-step cyber workflowをつなぎ始めた
Original: Our evaluation of Claude Mythos Preview's cyber capabilities View original →
r/singularity threadが、AI safetyの議論を再びbenchmarkと運用の現実へ引き戻した。postが共有したのは、AI Security InstituteによるClaude Mythos Previewの最新評価だ。内容は単なる“危険なmodel”という抽象論ではない。AISIは、modelにnetwork accessを与え明示的に指示したcontrolled evaluationで、Mythos Previewがvulnerable networkに対するmulti-stage attackを実行し、脆弱性の発見と悪用を自律的に進められたと報告している。
数字もはっきりしている。expert-levelのcapture-the-flag taskでは、Mythos Previewの成功率は73%だった。さらに重要なのがcyber rangeの結果だ。AISIが構築した“The Last Ones”は、reconnaissanceからfull network takeoverまで32 stepsをつなぐcorporate attack simulationで、人間なら約20時間を要すると見積もられている。Mythos Previewはこのscenarioをend to endで解いた最初のmodelとなり、10 attemptsのうち3回成功、全体平均では22 of 32 stepsを完了した。比較対象のClaude Opus 4.6は平均16 stepsだった。
ただし報告書は結論を慎重に限定している。Mythosはoperational technology中心の“Cooling Tower” rangeを完了できず、評価環境には現実のenterpriseで重要なactive defenders、detection tooling、noisy behaviorへのpenaltyも含まれていない。つまり、これをもって即座に“well-defendedな本番環境を突破できる”と読むべきではない。そうではなく、autonomous cyber capabilityが単発のskill testから、より長いchain operationへ進みつつある証拠として読むべきだ。
Redditの反応が強かったのはそこにある。commentでは、open-weight modelがfrontier modelを数年ではなく数か月単位で追っているなら、防御側の猶予は長くないという見方が目立った。それでも実務上の結論は派手ではない。AISI自身が強調したのはupdates、access controls、secure configuration、loggingといった基本だ。このpostが示したのは、AI cyber riskの議論が抽象的なAGI論争から離れ、弱いsystemをどれだけ早く堅牢化できるかという運用の問題へ移っているということだ。
Related Articles
Axiosによると、両社は重大な脆弱性を素早く見つけて悪用できる新モデルについて、米下院国土安全保障委員会のスタッフに非公開説明を行った。AIリスク論は抽象的な未来論ではなく、インフラ防衛の現場課題へ寄っている。
AnthropicがClaudeの行動指針を定めた「Claude's Constitution(Claudeの憲法)」をオーディオブック化し公開した。著者のAmanda AskellとJoe Carlsmithが直接朗読し、文書の哲学的背景やAIの進化に伴う変化可能性について語るQ&Aも収録されている。
AnthropicのフロンティアモデルMythosが、17年間見落とされてきたFreeBSDのRCE脆弱性を自律的に発見し、Firefoxで約300件のバグも特定した。この事態を受け、トランプ政権はAI事前審査制度の検討へ方針を転換した。
Comments (0)
No comments yet. Be the first to comment!