r/artificialで話題のATLAS、500ドルGPUでLiveCodeBench 74.6%

r/artificialでATLASが話題になったのは、より良いinference infrastructureが想像以上に性能差を縮めうると示しているからだ。project READMEによれば、ATLAS V3は単一のRTX 5060 Ti 16 GB上で、frozenな14B Qwen modelを使い、LiveCodeBench v5で74.6% pass@1を達成した。fine-tuningもなく、API callもなく、cloud inferenceも使っていない。

重要なのは、ATLASが小さなmodel一つで突然frontier model級になったと主張しているわけではないことだ。スコアはpipelineから生まれている。PlanSearchがconstraintを抽出しつつ複数のapproachを生成し、“Geometric Lens”がcandidateを順位付けし、sandboxed executionがそれらを試し、self-verified repair stageが失敗した解答を最終提出前に修正する。READMEでは、このbest-of-3 plus repair processが54.9%のbaselineを74.6%まで押し上げたと説明している。

repositoryはfrozenなQwen3-14B-Q4_K_M modelで599件のLiveCodeBench taskに対してこの結果を出したとしている。
cost estimateはtaskあたり約$0.004のlocal electricityで、同じtableにあるAPIベースのreference systemよりかなり低い。
authorsによればtradeoffはlatencyで、難しいtaskではsingle forward passではなくsearch、scoring、repairにcompute budgetを使うため数分単位になることがある。

このtradeoffがあるからこそ、Reddit postは刺さった。多くの“local beats frontier”系の主張はraw model qualityとsystem designの違いを曖昧にしがちだ。ATLASはその点むしろ明確で、base checkpointが隠れた強モデルだと装うのではなく、frozen modelをより賢くorchestrationして勝とうとしている。repositoryもcomparison tableがcontrolled head-to-headではないと明記しており、競合の公開スコアは別task setかつsingle-shot evaluationから来ていると説明している。

その留保を踏まえても、ATLASは興味深いsignalだ。consumer hardware上のcoding systemは、より大きいlocal checkpointだけで進歩する前に、planning、verification、repair loopによってかなり改善する可能性があることを示している。privacy、predictable cost、そしてthird-party APIへdataを出さない運用を重視するteamにとっては特に意味のある流れだ。

一次情報: ATLAS repository。コミュニティ出典: r/artificial thread。

r/artificialで話題のATLAS、500ドルGPUでLiveCodeBench 74.6%

Related Articles

Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮

FrontierCode、AIコード評価を「mergeできるPRか」へ寄せる新ベンチマーク

Hacker Newsが注目した ATLAS、local coding agent の採算を揺らす