r/singularity, Symbolica의 ARC-AGI-3 36.08% 결과와 비용 효율에 주목
Original: From 0% to 36% on Day 1 of ARC-AGI-3 View original →
Symbolica가 무엇을 발표했나
2026년 3월 r/singularity 게시물은 Symbolica의 ARC-AGI-3 결과를 다시 전면에 올렸고, 크롤링 시점 기준 203 points와 82 comments를 기록했다. Symbolica 설명에 따르면 Agentica SDK는 ARC-AGI-3 public eval set에서 미검증 36.08%를 기록했고, 182개의 playable level 중 113개를 해결했으며 25개 게임 가운데 7개를 완전히 끝냈다.
여기서 중요한 것은 framing이다. 회사는 이를 단순한 chain-of-thought benchmark run으로 설명하지 않는다. sandbox 안에서 persistent task를 수행하는 agentic system 결과로 제시한다. 바로 그 점 때문에 커뮤니티가 반응했다. ARC 계열 평가는 이제 next-token fluency보다 구조화된 reasoning과 interaction을 시험하는 문제로 읽히고 있기 때문이다.
보고된 baseline과의 차이
Symbolica는 비용 효율도 강하게 강조했다. 공개 비교표에서 Agentica의 36.08% 결과는 추정 비용 $1,005와 함께 제시된다. 반면 Opus 4.6 Max는 $8,900에 0.25%, GPT 5.4 High는 0.3%로 적혀 있다. 이 수치는 미검증 결과라는 전제를 반드시 붙여야 하지만, 커뮤니티 반응을 설명하기에는 충분하다. 이야기는 단순히 “점수가 더 높다”가 아니라, agent loop 아래에서 점수와 비용의 관계가 완전히 달라 보인다는 데 있다.
어디서 강했고 왜 중요한가
세부표를 보면 특정 게임에서 성과가 두드러진다. Symbolica는 CN04 97.60, LP85 84.16, AR25 83.28, FT09 77.59를 제시했다. 반대로 다른 과제에서는 성능이 크게 떨어진다. 이 역시 중요한 정보다. 현재 agent stack이 benchmark 전체에서 균일하게 강한 것은 아니지만, 특정 puzzle family에서는 이미 대화를 바꿀 만큼 강한 구간이 있다는 뜻이기 때문이다.
AI 독자에게 중요한 점은 ARC-AGI-3가 해결됐다는 메시지가 아니라는 것이다. 아직은 전혀 그렇지 않다. 더 유용한 해석은, 이제 benchmark 진전의 핵심 변수가 단순 chain-of-thought prompting보다 tool-using, persistent agent system일 수 있다는 점이다. r/singularity는 이를 passive reasoning에서 active orchestration으로 무게중심이 옮겨가는 신호로 읽었다. 향후 independent verification이 비슷한 범위로 나온다면, 이번 결과는 일회성 anomaly보다 전환기의 초기 지표로 보일 가능성이 높다.
원문: Symbolica ARC-AGI-3 글. 커뮤니티 토론: r/singularity.
Related Articles
ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.
ARC Prize가 2026년 3월 24일 공개한 ARC-AGI-3는 static task보다 interactive reasoning을 전면에 둔 새 benchmark다. HN에서는 238 points와 163 comments를 기록하며 agent 평가 방식의 전환점으로 주목받았다.
AI 고객 에이전트 플랫폼 Sierra가 Tiger Global·GV 주도로 9억 5천만 달러를 조달해 기업가치 158억 달러를 인정받았다. OpenAI 이사회 의장 Bret Taylor가 공동 창업한 이 회사의 ARR은 1억 5천만 달러로, 기업용 AI 에이전트 수요 급증을 반영한다.
Comments (0)
No comments yet. Be the first to comment!