Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Anthropicは科学AIの課題を、モデルの推論力だけでなくデータ検索基盤の問題として示した。NCBI Virusの検索課題では、gget virusを加えると精度がほぼ100%まで上がった。
Google Researchは、企業向けRAGを一度きりの検索から反復型agentワークフローへ寄せた。十分な文脈を検査する仕組みにより、factualityデータセットで最大34%の精度改善を示している。
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。
Microsoft Discoveryが6月2日に一般提供へ移行した。科学・工学R&Dで専門agent、組織知、シミュレーション、検証データをつなぎ、研究者向けローカルアプリもpreviewで公開された。
GitHubはCopilotアプリの技術プレビューを有料Copilot顧客全体へ広げ、ローカルとクラウドのsandboxを公開プレビューにした。焦点は新しいチャット機能ではなく、命令実行とファイル変更を担うagentの隔離と検証に移っている。
Perplexityはagent検索を、固定APIの連続呼び出しではなくPython codeで組み立てる方式へ移した。CVE vendor advisoryの事例では、token使用量が288.7Kから42.9Kへ85.1%減ったとしている。
Redditで注目されたのは、Claude代替という見出しよりもtool call error rate 12%という具体的な限界だった。
NVIDIA Veraはfull productionに入り、x86 CPU比でtask completionを1.8倍にすると説明された。OpenAI、Anthropic、SpaceXAI、ByteDance、CoreWeave、OCIなどが採用・評価先として挙がる。
NVIDIAは550BパラメータのMoEモデルを、Agent ToolkitやOpenShellと一体で打ち出した。最大5倍の推論速度、最大30%のコスト低下、6月4日の提供開始が焦点になる。
Anthropicは5月29日、Claude Platform on AWSでManaged Agentsのwebhooks、multiagent orchestration、self-hosted sandboxesを利用可能にした。Claude APIのAWS展開は、単なるモデル呼び出しからagent運用基盤へ広がっている。