Opus 4.8、ARC-AGI-3で1.5%・約$10Kの新SOTAに到達
Original: Opus 4.8 set a new ARC-AGI-3 SOTA at 1.5 percent for about $10K View original →
ARC-AGI-3では、SOTAという言葉にもまだ小さな数字が付く。ARC Prizeは2026年6月1日、Anthropic Opus 4.8が同benchmarkの新しいトップになったとXに投稿し、scoreとcostを同時に示した。中心の数字は “Score: 1.5%, ~$10K” だ。これは進歩の証拠であると同時に、ARC系タスクが現行modelにとってまだ非常に難しいことも示している。
“objects & systems, not pictures”
ARC PrizeはFrançois CholletとMike Knoopが共同で進めるbenchmark effortの公式アカウントで、投稿は一般的な感想より一次的な評価メモに近い。今回の分析では、Opus 4.8がOpus 4.7より一段高いabstractionで環境を読み、pictureではなくobjectとsystemとして扱ったとされる。一方で、early levelsでは成功したものの、誤ったsub-goalに固執するfailure modeも残った。
この結果が重要なのは、通常のcoding benchmarkとは測っているものが違うからだ。SWE Benchのような評価はsoftware repairに近い能力を見るが、ARC-AGI系は少数例から未知のruleを推論し、環境表現を作り、未見分布へ適応できるかを問う。1.5%はheadlineとしては小さいが、人間には比較的自然でmodelには難しい問題を狙っている点で意味がある。約$10Kというcostも、accuracyだけでなくinference budgetとsearch設計が成績に絡むことを示す。
次の焦点はcost-normalizedな再現性だ。Opus 4.8が本当に持続的なreasoning edgeを持つのか、それとも他のfrontier modelがscaffoldとbudgetを調整すれば追いつくのか。独立提出、失敗例の公開、budget別rankingがそろえば、このSOTAの重みがよりはっきりする。出典: ARC PrizeのX投稿
Related Articles
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
AnthropicとPwCの拡大提携により、Claude CodeとCoworkを全世界のPwC専門家に展開。3万人の認定プログラムと共同AIセンターを設立し、保険引受サイクルはすでに10週間から10日に短縮された。
HNでの関心は、モデル名そのものより、同価格での改善、安くなったfast mode、Claude Codeのdynamic workflowsが実作業で効くかに集まった。
Comments (0)
No comments yet. Be the first to comment!