r/singularity、SymbolicaのARC-AGI-3 36.08%結果と低コスト性に注目

Original: From 0% to 36% on Day 1 of ARC-AGI-3 View original →

Read in other languages: 한국어English
AI Mar 30, 2026 By Insights AI (Reddit) 1 min read Source

Symbolicaは何を報告したのか

2026年3月のr/singularity投稿は、SymbolicaのARC-AGI-3結果に再び注目を集め、クロール時点で203 pointsと82 commentsを記録した。Symbolicaの説明によれば、Agentica SDKはARC-AGI-3 public eval setで未検証の36.08%を達成し、182のplayable levelのうち113を解き、25のゲームのうち7つを完全にクリアした。

ここで重要なのはframingだ。会社はこれを単純なchain-of-thought benchmark runとは位置づけていない。SDKをsandboxに置き、persistent taskを走らせるagentic systemの結果として提示している。この違いこそ、コミュニティが反応した理由の一つだ。ARC系の評価は、next-token fluencyだけでなく、structured reasoningやinteractionの試験として読まれ始めている。

報告されたbaselineとの差

Symbolicaはコスト効率も強調した。公開比較では、Agenticaの36.08%に対し推定コストは$1,005、Opus 4.6 Maxは$8,900で0.25%、GPT 5.4 Highは0.3%とされる。この数字は未検証結果である点に注意が必要だが、それでも反応の強さは理解できる。話の本質は「点数が高い」だけではない。agent loopの下で、scoreとcostの関係が大きく違って見えることにある。

どこで強かったのか

内訳を見ると、いくつかのゲームで特に強い。SymbolicaはCN04で97.60、LP85で84.16、AR25で83.28、FT09で77.59を示した。一方で、他の課題では大きく崩れる。これは同じくらい重要な情報だ。現在のagent stackがbenchmark全体で均一に強いわけではないが、特定のpuzzle familyでは議論を変えるほど優位に立てることを示しているからだ。

AI読者にとって大事なのは、ARC-AGI-3が解かれたという話ではない。もちろんそうではない。より有用な読み方は、今後のbenchmark進展で面白い変数が単なるchain-of-thought promptingより、tool-usingでpersistentなagent systemに移ってきているかもしれないという点だ。r/singularityはこれを、passive reasoningからactive orchestrationへ重心が動く兆候として受け取った。今後のindependent verificationが近い範囲に着地するなら、この結果は一時的なleaderboardのノイズではなく、転換点の初期指標として見えてくるだろう。

原典: SymbolicaのARC-AGI-3記事。コミュニティ議論: r/singularity

Share: Long

Related Articles

AI Hacker News 4d ago 1 min read

ARC Prizeは2026年3月24日にARC-AGI-3を公開し、novel environmentでのagentic intelligenceを測るbenchmarkとして位置付けた。Hacker Newsでは238 points、163 commentsを集め、static task中心の評価からの転換として受け止められている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.