ARC-AGI-3最新スコア: GPT-5.5は0.43%、Claude Opus 4.7は0.18%
Original: ARC-AGI-3 Update (GPT-5.5 High and Opus4.7) View original →
最新スコア
r/singularityで354票を集めたアップデートによると、ARC-AGI-3の最新結果: GPT-5.5 High 0.43%、Claude Opus 4.7 0.18%。
ARC-AGI-3とは
ARC Prizeチームが開発したAGI評価ベンチマーク。前作より大幅に難しく、人間なら容易にクリアできるが最先端AIモデルでも1%未満の精度しか出ない。
示すもの
GPT-5.5やOpus 4.7は言語タスクで人間水準を超えているが、真の推論能力を測るARC-AGI-3ではほぼ無力だ。現在のLLMと真の汎用知性の間に依然として大きな隔たりがある。
Related Articles
LLM Reddit 3h ago 1 min read
AGI能力評価ベンチマークARC-AGI-3の最新結果で、GPT-5.5 Highが0.43%、Claude Opus 4.7が0.18%を記録。最先端モデルでも事実上ゼロに近いスコアが続いている。
LLM Hacker News 5d ago 1 min read
HNが反応したのは順位そのものではない。Diracが少ないトークン、hash-anchored edit、ASTベースの文脈選択でcoding agentを押し上げたという設計に注目が集まった。
LLM 6d ago 1 min read
なぜ重要か。AIエージェントが会話デモから実際の取引代行へ進み始めたからだ。Anthropicは社内マーケット実験で69体のエージェントが500超の出品から186件をまとめ、取引額は4,000ドルを少し超えたと示した。
Comments (0)
No comments yet. Be the first to comment!