腐食中
ARC-AGI-3最新スコア: GPT-5.5は0.43%、Claude Opus 4.7は0.18%
Original: ARC-AGI-3 Update (GPT-5.5 High and Opus4.7) View original →
最新スコア
r/singularityで354票を集めたアップデートによると、ARC-AGI-3の最新結果: GPT-5.5 High 0.43%、Claude Opus 4.7 0.18%。
ARC-AGI-3とは
ARC Prizeチームが開発したAGI評価ベンチマーク。前作より大幅に難しく、人間なら容易にクリアできるが最先端AIモデルでも1%未満の精度しか出ない。
示すもの
GPT-5.5やOpus 4.7は言語タスクで人間水準を超えているが、真の推論能力を測るARC-AGI-3ではほぼ無力だ。現在のLLMと真の汎用知性の間に依然として大きな隔たりがある。
Related Articles
LLM X/Twitter 6d ago 1 min read
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
LLM X/Twitter May 29, 2026 1 min read
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
LLM X/Twitter Jun 3, 2026 1 min read
ARC PrizeはAnthropic Opus 4.8をARC-AGI-3の新SOTAとしたが、数字はbenchmarkの難しさも示す。スコアは1.5%、コストは約$10Kで、進歩はobjectとsystemの抽象化に結びついている。