r/singularity、SymbolicaのARC-AGI-3 36.08%結果と低コスト性に注目

Symbolicaは何を報告したのか

2026年3月のr/singularity投稿は、SymbolicaのARC-AGI-3結果に再び注目を集め、クロール時点で203 pointsと82 commentsを記録した。Symbolicaの説明によれば、Agentica SDKはARC-AGI-3 public eval setで未検証の36.08%を達成し、182のplayable levelのうち113を解き、25のゲームのうち7つを完全にクリアした。

ここで重要なのはframingだ。会社はこれを単純なchain-of-thought benchmark runとは位置づけていない。SDKをsandboxに置き、persistent taskを走らせるagentic systemの結果として提示している。この違いこそ、コミュニティが反応した理由の一つだ。ARC系の評価は、next-token fluencyだけでなく、structured reasoningやinteractionの試験として読まれ始めている。

報告されたbaselineとの差

Symbolicaはコスト効率も強調した。公開比較では、Agenticaの36.08%に対し推定コストは$1,005、Opus 4.6 Maxは$8,900で0.25%、GPT 5.4 Highは0.3%とされる。この数字は未検証結果である点に注意が必要だが、それでも反応の強さは理解できる。話の本質は「点数が高い」だけではない。agent loopの下で、scoreとcostの関係が大きく違って見えることにある。

どこで強かったのか

内訳を見ると、いくつかのゲームで特に強い。SymbolicaはCN04で97.60、LP85で84.16、AR25で83.28、FT09で77.59を示した。一方で、他の課題では大きく崩れる。これは同じくらい重要な情報だ。現在のagent stackがbenchmark全体で均一に強いわけではないが、特定のpuzzle familyでは議論を変えるほど優位に立てることを示しているからだ。

AI読者にとって大事なのは、ARC-AGI-3が解かれたという話ではない。もちろんそうではない。より有用な読み方は、今後のbenchmark進展で面白い変数が単なるchain-of-thought promptingより、tool-usingでpersistentなagent systemに移ってきているかもしれないという点だ。r/singularityはこれを、passive reasoningからactive orchestrationへ重心が動く兆候として受け取った。今後のindependent verificationが近い範囲に着地するなら、この結果は一時的なleaderboardのノイズではなく、転換点の初期指標として見えてくるだろう。

原典: SymbolicaのARC-AGI-3記事。コミュニティ議論: r/singularity。

r/singularity、SymbolicaのARC-AGI-3 36.08%結果と低コスト性に注目

Symbolicaは何を報告したのか

報告されたbaselineとの差

どこで強かったのか

Related Articles

Hacker Newsで注目を集めたARC-AGI-3、相互作用と適応を軸にした新しいagent benchmark

NVIDIA MOTIVE、motion重視のclip選別で74.1% preferenceを獲得

AlphaEvolveがGAへ、Google Cloudがアルゴリズム探索を商品化