Opus 4.8、ARC-AGI-3で1.5%・約$10Kの新SOTAに到達

ARC-AGI-3では、SOTAという言葉にもまだ小さな数字が付く。ARC Prizeは2026年6月1日、Anthropic Opus 4.8が同benchmarkの新しいトップになったとXに投稿し、scoreとcostを同時に示した。中心の数字は “Score: 1.5%, ~$10K” だ。これは進歩の証拠であると同時に、ARC系タスクが現行modelにとってまだ非常に難しいことも示している。

“objects & systems, not pictures”

ARC PrizeはFrançois CholletとMike Knoopが共同で進めるbenchmark effortの公式アカウントで、投稿は一般的な感想より一次的な評価メモに近い。今回の分析では、Opus 4.8がOpus 4.7より一段高いabstractionで環境を読み、pictureではなくobjectとsystemとして扱ったとされる。一方で、early levelsでは成功したものの、誤ったsub-goalに固執するfailure modeも残った。

この結果が重要なのは、通常のcoding benchmarkとは測っているものが違うからだ。SWE Benchのような評価はsoftware repairに近い能力を見るが、ARC-AGI系は少数例から未知のruleを推論し、環境表現を作り、未見分布へ適応できるかを問う。1.5%はheadlineとしては小さいが、人間には比較的自然でmodelには難しい問題を狙っている点で意味がある。約$10Kというcostも、accuracyだけでなくinference budgetとsearch設計が成績に絡むことを示す。

次の焦点はcost-normalizedな再現性だ。Opus 4.8が本当に持続的なreasoning edgeを持つのか、それとも他のfrontier modelがscaffoldとbudgetを調整すれば追いつくのか。独立提出、失敗例の公開、budget別rankingがそろえば、このSOTAの重みがよりはっきりする。出典: ARC PrizeのX投稿

Opus 4.8、ARC-AGI-3で1.5%・約$10Kの新SOTAに到達

Related Articles

Claudeの価値傾向、30万超会話でモデル差と言語差を測るAnthropicの4軸評価研究と監視手法

Anthropic、自律AIエージェントの新たな失敗4類型を提示

ARC-AGI-3最新スコア: GPT-5.5は0.43%、Claude Opus 4.7は0.18%