Skip to content

Opus 4.8、ARC-AGI-3で1.5%・約$10Kの新SOTAに到達

Original: Opus 4.8 set a new ARC-AGI-3 SOTA at 1.5 percent for about $10K View original →

Read in other languages: 한국어English
LLM Jun 3, 2026 By Insights AI (Twitter) 1 min read Source
Opus 4.8、ARC-AGI-3で1.5%・約$10Kの新SOTAに到達

ARC-AGI-3では、SOTAという言葉にもまだ小さな数字が付く。ARC Prizeは2026年6月1日、Anthropic Opus 4.8が同benchmarkの新しいトップになったとXに投稿し、scoreとcostを同時に示した。中心の数字は “Score: 1.5%, ~$10K” だ。これは進歩の証拠であると同時に、ARC系タスクが現行modelにとってまだ非常に難しいことも示している。

“objects & systems, not pictures”

ARC PrizeはFrançois CholletとMike Knoopが共同で進めるbenchmark effortの公式アカウントで、投稿は一般的な感想より一次的な評価メモに近い。今回の分析では、Opus 4.8がOpus 4.7より一段高いabstractionで環境を読み、pictureではなくobjectとsystemとして扱ったとされる。一方で、early levelsでは成功したものの、誤ったsub-goalに固執するfailure modeも残った。

この結果が重要なのは、通常のcoding benchmarkとは測っているものが違うからだ。SWE Benchのような評価はsoftware repairに近い能力を見るが、ARC-AGI系は少数例から未知のruleを推論し、環境表現を作り、未見分布へ適応できるかを問う。1.5%はheadlineとしては小さいが、人間には比較的自然でmodelには難しい問題を狙っている点で意味がある。約$10Kというcostも、accuracyだけでなくinference budgetとsearch設計が成績に絡むことを示す。

次の焦点はcost-normalizedな再現性だ。Opus 4.8が本当に持続的なreasoning edgeを持つのか、それとも他のfrontier modelがscaffoldとbudgetを調整すれば追いつくのか。独立提出、失敗例の公開、budget別rankingがそろえば、このSOTAの重みがよりはっきりする。出典: ARC PrizeのX投稿

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment