r/singularity, Symbolica의 ARC-AGI-3 36.08% 결과와 비용 효율에 주목

Symbolica가 무엇을 발표했나

2026년 3월 r/singularity 게시물은 Symbolica의 ARC-AGI-3 결과를 다시 전면에 올렸고, 크롤링 시점 기준 203 points와 82 comments를 기록했다. Symbolica 설명에 따르면 Agentica SDK는 ARC-AGI-3 public eval set에서 미검증 36.08%를 기록했고, 182개의 playable level 중 113개를 해결했으며 25개 게임 가운데 7개를 완전히 끝냈다.

여기서 중요한 것은 framing이다. 회사는 이를 단순한 chain-of-thought benchmark run으로 설명하지 않는다. sandbox 안에서 persistent task를 수행하는 agentic system 결과로 제시한다. 바로 그 점 때문에 커뮤니티가 반응했다. ARC 계열 평가는 이제 next-token fluency보다 구조화된 reasoning과 interaction을 시험하는 문제로 읽히고 있기 때문이다.

보고된 baseline과의 차이

Symbolica는 비용 효율도 강하게 강조했다. 공개 비교표에서 Agentica의 36.08% 결과는 추정 비용 $1,005와 함께 제시된다. 반면 Opus 4.6 Max는 $8,900에 0.25%, GPT 5.4 High는 0.3%로 적혀 있다. 이 수치는 미검증 결과라는 전제를 반드시 붙여야 하지만, 커뮤니티 반응을 설명하기에는 충분하다. 이야기는 단순히 “점수가 더 높다”가 아니라, agent loop 아래에서 점수와 비용의 관계가 완전히 달라 보인다는 데 있다.

어디서 강했고 왜 중요한가

세부표를 보면 특정 게임에서 성과가 두드러진다. Symbolica는 CN04 97.60, LP85 84.16, AR25 83.28, FT09 77.59를 제시했다. 반대로 다른 과제에서는 성능이 크게 떨어진다. 이 역시 중요한 정보다. 현재 agent stack이 benchmark 전체에서 균일하게 강한 것은 아니지만, 특정 puzzle family에서는 이미 대화를 바꿀 만큼 강한 구간이 있다는 뜻이기 때문이다.

AI 독자에게 중요한 점은 ARC-AGI-3가 해결됐다는 메시지가 아니라는 것이다. 아직은 전혀 그렇지 않다. 더 유용한 해석은, 이제 benchmark 진전의 핵심 변수가 단순 chain-of-thought prompting보다 tool-using, persistent agent system일 수 있다는 점이다. r/singularity는 이를 passive reasoning에서 active orchestration으로 무게중심이 옮겨가는 신호로 읽었다. 향후 independent verification이 비슷한 범위로 나온다면, 이번 결과는 일회성 anomaly보다 전환기의 초기 지표로 보일 가능성이 높다.

원문: Symbolica ARC-AGI-3 글. 커뮤니티 토론: r/singularity.

r/singularity, Symbolica의 ARC-AGI-3 36.08% 결과와 비용 효율에 주목

Symbolica가 무엇을 발표했나

보고된 baseline과의 차이

어디서 강했고 왜 중요한가

Related Articles

Hacker News가 주목한 ARC-AGI-3, 상호작용과 적응을 중심에 둔 새 agent benchmark

AlphaEvolve GA 전환, 물류·칩·HPC 최적화가 Google Cloud 상품으로

NVIDIA Vera, agent loop용 CPU에서 x86 대비 1.8배 per-core 성능

Related Articles

Hacker News가 주목한 ARC-AGI-3, 상호작용과 적응을 중심에 둔 새 agent benchmark
AI Hacker News Mar 26, 2026 2 min read

AlphaEvolve GA 전환, 물류·칩·HPC 최적화가 Google Cloud 상품으로

NVIDIA Vera, agent loop용 CPU에서 x86 대비 1.8배 per-core 성능
NVIDIA가 agentic AI용 CPU Vera의 성능 근거를 공개했다. Olympus 코어는 Grace보다 IPC가 50% 높고, agentic 실행 부하에서 x86 대비 지속 per-core 성능 1.8배를 제시했다.