腐食中

ARC-AGI-3最新スコア: GPT-5.5は0.43%、Claude Opus 4.7は0.18%

Original: ARC-AGI-3 Update (GPT-5.5 High and Opus4.7) View original →

Read in other languages: 한국어 English

LLM May 3, 2026 By Insights AI (Reddit) 1 min read 31 views Source

ARC-AGI-3とは

ARC Prizeチームが開発したAGI評価ベンチマーク。前作より大幅に難しく、人間なら容易にクリアできるが最先端AIモデルでも1%未満の精度しか出ない。

GPT-5.5やOpus 4.7は言語タスクで人間水準を超えているが、真の推論能力を測るARC-AGI-3ではほぼ無力だ。現在のLLMと真の汎用知性の間に依然として大きな隔たりがある。

Share: Long

LLM 1d ago 1 min read

GPT-5.6 Solは、reasoningを保持しcompactionを使うharnessではARC-AGI-3のスコアを13.3%から38.3%へ伸ばした。モデル比較では、重みだけでなくmemoryとcontext設計も読まなければならない。

LLM 6d ago 1 min read

高性能モデルの競争軸が、最高点だけでなく費用対効果へ移っている。Claude Opus 5はFable 5に近いcoding・知識作業性能を掲げ、API価格は入力$5/M・出力$25/M tokensに据え置かれた。

LLM X/Twitter Jun 3, 2026 1 min read

ARC PrizeはAnthropic Opus 4.8をARC-AGI-3の新SOTAとしたが、数字はbenchmarkの難しさも示す。スコアは1.5%、コストは約$10Kで、進歩はobjectとsystemの抽象化に結びついている。