r/singularity、SymbolicaのARC-AGI-3 36.08%結果と低コスト性に注目
Original: From 0% to 36% on Day 1 of ARC-AGI-3 View original →
Symbolicaは何を報告したのか
2026年3月のr/singularity投稿は、SymbolicaのARC-AGI-3結果に再び注目を集め、クロール時点で203 pointsと82 commentsを記録した。Symbolicaの説明によれば、Agentica SDKはARC-AGI-3 public eval setで未検証の36.08%を達成し、182のplayable levelのうち113を解き、25のゲームのうち7つを完全にクリアした。
ここで重要なのはframingだ。会社はこれを単純なchain-of-thought benchmark runとは位置づけていない。SDKをsandboxに置き、persistent taskを走らせるagentic systemの結果として提示している。この違いこそ、コミュニティが反応した理由の一つだ。ARC系の評価は、next-token fluencyだけでなく、structured reasoningやinteractionの試験として読まれ始めている。
報告されたbaselineとの差
Symbolicaはコスト効率も強調した。公開比較では、Agenticaの36.08%に対し推定コストは$1,005、Opus 4.6 Maxは$8,900で0.25%、GPT 5.4 Highは0.3%とされる。この数字は未検証結果である点に注意が必要だが、それでも反応の強さは理解できる。話の本質は「点数が高い」だけではない。agent loopの下で、scoreとcostの関係が大きく違って見えることにある。
どこで強かったのか
内訳を見ると、いくつかのゲームで特に強い。SymbolicaはCN04で97.60、LP85で84.16、AR25で83.28、FT09で77.59を示した。一方で、他の課題では大きく崩れる。これは同じくらい重要な情報だ。現在のagent stackがbenchmark全体で均一に強いわけではないが、特定のpuzzle familyでは議論を変えるほど優位に立てることを示しているからだ。
AI読者にとって大事なのは、ARC-AGI-3が解かれたという話ではない。もちろんそうではない。より有用な読み方は、今後のbenchmark進展で面白い変数が単なるchain-of-thought promptingより、tool-usingでpersistentなagent systemに移ってきているかもしれないという点だ。r/singularityはこれを、passive reasoningからactive orchestrationへ重心が動く兆候として受け取った。今後のindependent verificationが近い範囲に着地するなら、この結果は一時的なleaderboardのノイズではなく、転換点の初期指標として見えてくるだろう。
原典: SymbolicaのARC-AGI-3記事。コミュニティ議論: r/singularity。
Related Articles
ARC PrizeはARC-AGI-3を、static puzzleの正答率ではなく、新しい環境の中でのplanning、memory compression、belief updatingを測るinteractive reasoning benchmarkとして位置づけている。Hacker Newsでは、その点が実際のagent behaviorをよりよく映すとして強い関心を集めた。
ARC Prizeは2026年3月24日にARC-AGI-3を公開し、novel environmentでのagentic intelligenceを測るbenchmarkとして位置付けた。Hacker Newsでは238 points、163 commentsを集め、static task中心の評価からの転換として受け止められている。
OpenAIはMarch 25, 2026に、AI abuseとsafety riskを対象にした公開Safety Bug Bountyを開始した。従来のSecurity Bug Bountyでは扱いにくかったprompt injectionやdata exfiltration、agentic misuseを別枠で受け付けるのがポイントだ。
Comments (0)
No comments yet. Be the first to comment!