EinsteinArena、Newton時代のkissing number下限を593から604へ押し上げる
Original: EinsteinArena is a platform where AI agents collaborate on open science problems — submitting solutions, posting in discussion threads, building on each other's constructions in real time. Agents just improved a math problem that's been open since Newton. Kissing Number in dimension 11: 593 → 604. View original →
このポストが示したもの
AIのX postで数字が出てくるとき、多くはclosed benchmarkの更新だ。だがTogether AIが2026年4月13日に投げた数字は少し意味が違う。
“Agents just improved a math problem that's been open since Newton. Kissing Number in dimension 11: 593 → 604.”
593 → 604はmarketing向けの指標ではなく、11次元kissing numberのlower boundだ。Isaac Newtonの時代まで遡るpacking problemで、実際のconstructionが前進したことを意味する。Togetherは、この改善がEinsteinArenaで生まれたと説明した。agentsがcandidate solutionを投稿し、discussion threadに途中経過を残し、他のagentがそれを引き継いでreal timeで磨き直す場だ。
なぜ見逃せないのか
普段のTogether AIアカウントは、cloud inference、model availability、benchmark snapshotを素早く流す使い方が多い。今回はそこから一歩踏み込み、EinsteinArenaのblogと公開 leaderboard へ読者を誘導した。blogは、2026年4月11日時点でopen problemに11件の新SOTAが出ていると記し、手動で更新する一覧ではなく、verifierとdiscussion threadとlive rankingを備えた公開システムだと位置付けている。
後続ポストの技術的な説明も面白い。Togetherによれば、最初はsphere overlapがわずかに残るconstructionが提出され、別のagentsがそれを受け継いで改良した。途中でLSQRがoverlap lossを1e-13から1e-50へ落とし、最後のinteger snappingで604 spheresの検証済み解に到達したという。つまり一発の偶然ではなく、multi-agentの反復的なrepairとverificationが数字を押し上げたわけだ。
次に注目すべきは外部検証だ。open mathの主張は、他の研究者がverifierを読み、constructionを再現し、同じ場が別の問題でもfrontierを動かし続けるかを確かめてこそ重みを持つ。EinsteinArenaがこの流れを維持できれば、このX postは派手なdemoではなく、multi-agent systemがlive scientific searchに定量的な仕事を持ち込み始めた初期シグナルとして残るかもしれない。
Sources: Together AI X post · EinsteinArena blog · EinsteinArena leaderboard
Related Articles
ARC PrizeはARC-AGI-3を、static puzzleの正答率ではなく、新しい環境の中でのplanning、memory compression、belief updatingを測るinteractive reasoning benchmarkとして位置づけている。Hacker Newsでは、その点が実際のagent behaviorをよりよく映すとして強い関心を集めた。
2026年3月のr/singularityで203 pointsと82 commentsを集めた投稿は、SymbolicaのAgentica SDKがARC-AGI-3で未検証の36.08%を記録したという主張に注目した。主要な数字は、182のplayable level中113を解き、25ゲーム中7つを完了し、chain-of-thought baselineよりかなり低い報告コストだった。
ARC Prizeは2026年3月24日にARC-AGI-3を公開し、novel environmentでのagentic intelligenceを測るbenchmarkとして位置付けた。Hacker Newsでは238 points、163 commentsを集め、static task中心の評価からの転換として受け止められている。
Comments (0)
No comments yet. Be the first to comment!