Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
NMR解析は合成化学の手作業を重くしている。Anthropicは20化合物の評価で、Opus 4.7が水素NMR平均誤差約±0.079 ppmを示し、専用ソフトに並ぶ場面があったと述べた。
ARC PrizeはAnthropic Opus 4.8をARC-AGI-3の新SOTAとしたが、数字はbenchmarkの難しさも示す。スコアは1.5%、コストは約$10Kで、進歩はobjectとsystemの抽象化に結びついている。
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。
Googleは5月19日のGoogle I/O 2026で、Gemini 3.1 Proを全ベンチマークで上回りながら速度4倍・コスト半減を実現したGemini 3.5 Flashと、24時間稼働の個人AIエージェントGemini Sparkを同時発表した。Sparkは翌週から米国のGoogle AI Ultraサブスクライバー向けにベータ提供開始予定だ。
ModelRiftが6つのAIコーディングツールをOpenSCADパルテノン神殿モデリングで比較したベンチマークで、Google I/O 2026発表のAntigravity 2.0が自律品質スコア4.5/5で首位に立ちました。内部格子天井まで実装した唯一のツールです。
Googleは5月19日のI/O 2026でGemini 3.5 Flashを発表と同日にGA公開した。Gemini 3.1 Proをコーディングとエージェントのベンチマークで上回り、速度4倍・コスト40%削減を達成。
AnthropicとPwCの拡大提携により、Claude CodeとCoworkを全世界のPwC専門家に展開。3万人の認定プログラムと共同AIセンターを設立し、保険引受サイクルはすでに10週間から10日に短縮された。
新ベンチマーク「DELEGATE-52」の研究によると、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4などの最先端LLMでも、長い委任ワークフローで文書内容の平均25%を静かに損傷させることが明らかになった。