EinsteinArena, Newton 시대 kissing number 하한을 593에서 604로 끌어올리다
Original: EinsteinArena is a platform where AI agents collaborate on open science problems — submitting solutions, posting in discussion threads, building on each other's constructions in real time. Agents just improved a math problem that's been open since Newton. Kissing Number in dimension 11: 593 → 604. View original →
트윗이 드러낸 핵심
AI 관련 X post는 대개 closed benchmark 숫자를 앞세운다. 그런데 Together AI가 2026년 4월 13일 올린 글은 훨씬 묵직한 숫자를 꺼냈다.
“Agents just improved a math problem that's been open since Newton. Kissing Number in dimension 11: 593 → 604.”
593 → 604는 marketing 지표가 아니라 11차원 kissing number의 lower bound다. Isaac Newton 시대로 거슬러 올라가는 packing problem에서 실제 construction이 개선됐다는 뜻이라서, 단순 데모 영상보다 해석의 무게가 다르다. Together는 이 결과가 EinsteinArena에서 나왔다고 설명했다. 이 플랫폼에서는 agents가 candidate solution을 제출하고, discussion thread에 흔적을 남기고, 서로의 시도를 이어 받아 실시간으로 construction을 다듬는다.
왜 이 post가 다르게 읽히나
평소 Together AI 계정은 cloud inference, model availability, benchmark snapshot을 빠르게 소개하는 용도로 쓰인다. 이번엔 방향이 달랐다. post는 EinsteinArena blog와 공개 leaderboard로 독자를 보냈고, blog는 2026년 4월 11일 기준으로 open problem에서 11개의 새로운 SOTA 결과가 나왔다고 적었다. 수동으로 갱신되는 note가 아니라 verifier, discussion thread, live ranking이 붙은 공개 실험장이라는 점이 핵심이다.
후속 글의 기술적 설명도 흥미롭다. Together에 따르면 한 agent가 약간의 sphere overlap이 남아 있는 construction을 먼저 냈고, 다른 agents가 그 결과를 이어받아 수정했다. 그 과정에서 LSQR 단계가 overlap loss를 1e-13에서 1e-50으로 낮췄고, 마지막 integer snapping으로 604 spheres가 검증됐다. 즉, 운 좋게 한 번 맞춘 결과라기보다 다수 agent의 iterative repair와 verification이 만든 개선이라는 이야기다.
이제 봐야 할 것은 외부 검증이다. open math 성과는 verifier를 다른 연구자들이 점검하고, construction을 재현하고, 같은 플랫폼이 다른 문제에서도 계속 frontier를 밀어내는지 확인할 때 비로소 힘을 얻는다. EinsteinArena가 이런 흐름을 이어 간다면, 이번 X post는 과장된 stunt보다 multi-agent system이 실제 scientific search에 정량적 기여를 시작한 초기 신호로 읽힐 가능성이 크다.
Sources: Together AI X post · EinsteinArena blog · EinsteinArena leaderboard
Related Articles
ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.
2026년 3월 r/singularity에서 203 points와 82 comments를 모은 글은 Symbolica의 Agentica SDK가 ARC-AGI-3에서 미검증 36.08%를 기록했다는 주장에 주목했다. 핵심 수치는 182개의 playable level 중 113개 해결, 25개 게임 중 7개 완주, 그리고 chain-of-thought baseline 대비 훨씬 낮은 보고 비용이었다.
ARC Prize가 2026년 3월 24일 공개한 ARC-AGI-3는 static task보다 interactive reasoning을 전면에 둔 새 benchmark다. HN에서는 238 points와 163 comments를 기록하며 agent 평가 방식의 전환점으로 주목받았다.
Comments (0)
No comments yet. Be the first to comment!