r/singularity, Symbolica의 ARC-AGI-3 36.08% 결과와 비용 효율에 주목
Original: From 0% to 36% on Day 1 of ARC-AGI-3 View original →
Symbolica가 무엇을 발표했나
2026년 3월 r/singularity 게시물은 Symbolica의 ARC-AGI-3 결과를 다시 전면에 올렸고, 크롤링 시점 기준 203 points와 82 comments를 기록했다. Symbolica 설명에 따르면 Agentica SDK는 ARC-AGI-3 public eval set에서 미검증 36.08%를 기록했고, 182개의 playable level 중 113개를 해결했으며 25개 게임 가운데 7개를 완전히 끝냈다.
여기서 중요한 것은 framing이다. 회사는 이를 단순한 chain-of-thought benchmark run으로 설명하지 않는다. sandbox 안에서 persistent task를 수행하는 agentic system 결과로 제시한다. 바로 그 점 때문에 커뮤니티가 반응했다. ARC 계열 평가는 이제 next-token fluency보다 구조화된 reasoning과 interaction을 시험하는 문제로 읽히고 있기 때문이다.
보고된 baseline과의 차이
Symbolica는 비용 효율도 강하게 강조했다. 공개 비교표에서 Agentica의 36.08% 결과는 추정 비용 $1,005와 함께 제시된다. 반면 Opus 4.6 Max는 $8,900에 0.25%, GPT 5.4 High는 0.3%로 적혀 있다. 이 수치는 미검증 결과라는 전제를 반드시 붙여야 하지만, 커뮤니티 반응을 설명하기에는 충분하다. 이야기는 단순히 “점수가 더 높다”가 아니라, agent loop 아래에서 점수와 비용의 관계가 완전히 달라 보인다는 데 있다.
어디서 강했고 왜 중요한가
세부표를 보면 특정 게임에서 성과가 두드러진다. Symbolica는 CN04 97.60, LP85 84.16, AR25 83.28, FT09 77.59를 제시했다. 반대로 다른 과제에서는 성능이 크게 떨어진다. 이 역시 중요한 정보다. 현재 agent stack이 benchmark 전체에서 균일하게 강한 것은 아니지만, 특정 puzzle family에서는 이미 대화를 바꿀 만큼 강한 구간이 있다는 뜻이기 때문이다.
AI 독자에게 중요한 점은 ARC-AGI-3가 해결됐다는 메시지가 아니라는 것이다. 아직은 전혀 그렇지 않다. 더 유용한 해석은, 이제 benchmark 진전의 핵심 변수가 단순 chain-of-thought prompting보다 tool-using, persistent agent system일 수 있다는 점이다. r/singularity는 이를 passive reasoning에서 active orchestration으로 무게중심이 옮겨가는 신호로 읽었다. 향후 independent verification이 비슷한 범위로 나온다면, 이번 결과는 일회성 anomaly보다 전환기의 초기 지표로 보일 가능성이 높다.
원문: Symbolica ARC-AGI-3 글. 커뮤니티 토론: r/singularity.
Related Articles
ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.
ARC Prize가 2026년 3월 24일 공개한 ARC-AGI-3는 static task보다 interactive reasoning을 전면에 둔 새 benchmark다. HN에서는 238 points와 163 comments를 기록하며 agent 평가 방식의 전환점으로 주목받았다.
GitHub repo와 arXiv paper가 관심을 끈 이유는 self-improvement를 슬로건이 아니라 editable code loop로 보여주기 때문이다. task agent와 meta agent가 하나의 program 안에서 함께 바뀐다.
Comments (0)
No comments yet. Be the first to comment!