Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
Anthropicは科学AIの課題を、モデルの推論力だけでなくデータ検索基盤の問題として示した。NCBI Virusの検索課題では、gget virusを加えると精度がほぼ100%まで上がった。
NMR解析は合成化学の手作業を重くしている。Anthropicは20化合物の評価で、Opus 4.7が水素NMR平均誤差約±0.079 ppmを示し、専用ソフトに並ぶ場面があったと述べた。
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
AI悪用の焦点はフィッシング文面から侵入後の自動化へ移っている。Anthropicは832の悪性アカウントをMITRE ATT&CKに対応付け、中リスク以上の比率が33%から56%へ上がったと示した。
ARC PrizeはAnthropic Opus 4.8をARC-AGI-3の新SOTAとしたが、数字はbenchmarkの難しさも示す。スコアは1.5%、コストは約$10Kで、進歩はobjectとsystemの抽象化に結びついている。
AnthropicはSECへ非公開のS-1草案を提出し、審査後にIPOを選べる状態に入った。650億ドルのSeries H、9,650億ドル評価の直後で、Claudeの収益性が公開市場に近づく。
Anthropicは5月29日、Claude Platform on AWSでManaged Agentsのwebhooks、multiagent orchestration、self-hosted sandboxesを利用可能にした。Claude APIのAWS展開は、単なるモデル呼び出しからagent運用基盤へ広がっている。
Claudeの争点はモデル性能だけではなくなった。AnthropicはSeries Hで$65Bを調達し、post-money valuationは$965B、run-rate revenueは5月上旬に$47Bを超えたと明かした。
Claude Opus 4.8のfast modeは、同じモデルを約2.5倍速で動かす選択肢になった。Claude公式は、従来のfast modeより価格を3分の1に下げたと説明している。