Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
NMR解析は合成化学の手作業を重くしている。Anthropicは20化合物の評価で、Opus 4.7が水素NMR平均誤差約±0.079 ppmを示し、専用ソフトに並ぶ場面があったと述べた。
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
Anthropicは5月29日、Claude Platform on AWSでManaged Agentsのwebhooks、multiagent orchestration、self-hosted sandboxesを利用可能にした。Claude APIのAWS展開は、単なるモデル呼び出しからagent運用基盤へ広がっている。
Claudeの争点はモデル性能だけではなくなった。AnthropicはSeries Hで$65Bを調達し、post-money valuationは$965B、run-rate revenueは5月上旬に$47Bを超えたと明かした。
Claude Opus 4.8のfast modeは、同じモデルを約2.5倍速で動かす選択肢になった。Claude公式は、従来のfast modeより価格を3分の1に下げたと説明している。
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
HNでの関心は、モデル名そのものより、同価格での改善、安くなったfast mode、Claude Codeのdynamic workflowsが実作業で効くかに集まった。
DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。
Claude CodeやCoworkが実作業の権限を持つほど、リスク管理は説得文ではなく実行環境の制御に寄る。Anthropicは、Claude Codeの権限プロンプトが約93%承認されていたと明かした。