Claude Opus 4.6がMETRのソフトウェアタスクベンチマークで50%時間基準として約14.5時間を達成し、全ての予測を上回りました。AI能力の倍増時間が3ヶ月未満とされ、指数的成長が示されています。
#ai-agents
Andrej KarpathyがOpenClaw的なAIエージェントシステムの新カテゴリ「Claws」を命名。LLMエージェントがLLMの新レイヤーだったように、ClawsはLLMエージェントの上でオーケストレーション・スケジューリング・永続的コンテキスト管理を担う新レイヤーです。
Hacker Newsで取り上げられたAnthropicの2026年2月18日レポートは、数百万件の相互作用を分析し、実運用でのagent自律性上昇、監督スタイルの変化、高リスク領域の初期拡大を示した。
Anthropicは2026年2月20日、Claude Code Securityを限定リサーチプレビューとして発表した。コードベースの脆弱性検出と修正案提示を行うが、最終適用は常に人間の確認・承認を前提としている。
r/singularityで拡散したAnthropicの2026-02-18研究は、Claude Codeとpublic APIの実データを基に、自律実行時間、auto-approve傾向、リスク領域での利用状況を提示した。
Anthropicは2026年2月17日にClaude Sonnet 4.6を発表し、codingやcomputer use、long-context reasoningを含む広範な性能向上を示した。Free/Proの既定モデルに切り替えつつ、API価格はSonnet 4.5と同じ$3/$15 per million tokensを維持する。
DockerによるNanoClaw実行ガイドがHacker Newsで102ポイントを獲得し、エージェントをホストから分離して運用する実践的な手順として注目されました。特に、ファイルシステム分離とプロキシ経由のAPIキー管理が焦点です。
Anthropicは2026年2月2日、Allen InstituteとHoward Hughes Medical Institute(HHMI)との提携を発表した。multi-agent AIを研究実務に組み込み、解析ボトルネックの短縮と解釈可能性の向上を狙う。
Google DeepMindは2026年2月11日、Gemini Deep Thinkを用いた数理・科学研究支援の成果を公開した。2本の論文、検証ループ型エージェント設計、評価ベンチマークの結果を示している。