r/artificialで話題のATLAS、500ドルGPUでLiveCodeBench 74.6%
Original: Open-source AI system on a $500 GPU outperforms Claude Sonnet on coding benchmarks View original →
r/artificialでATLASが話題になったのは、より良いinference infrastructureが想像以上に性能差を縮めうると示しているからだ。project READMEによれば、ATLAS V3は単一のRTX 5060 Ti 16 GB上で、frozenな14B Qwen modelを使い、LiveCodeBench v5で74.6% pass@1を達成した。fine-tuningもなく、API callもなく、cloud inferenceも使っていない。
重要なのは、ATLASが小さなmodel一つで突然frontier model級になったと主張しているわけではないことだ。スコアはpipelineから生まれている。PlanSearchがconstraintを抽出しつつ複数のapproachを生成し、“Geometric Lens”がcandidateを順位付けし、sandboxed executionがそれらを試し、self-verified repair stageが失敗した解答を最終提出前に修正する。READMEでは、このbest-of-3 plus repair processが54.9%のbaselineを74.6%まで押し上げたと説明している。
- repositoryはfrozenな
Qwen3-14B-Q4_K_Mmodelで599件のLiveCodeBench taskに対してこの結果を出したとしている。 - cost estimateはtaskあたり約
$0.004のlocal electricityで、同じtableにあるAPIベースのreference systemよりかなり低い。 - authorsによればtradeoffはlatencyで、難しいtaskではsingle forward passではなくsearch、scoring、repairにcompute budgetを使うため数分単位になることがある。
このtradeoffがあるからこそ、Reddit postは刺さった。多くの“local beats frontier”系の主張はraw model qualityとsystem designの違いを曖昧にしがちだ。ATLASはその点むしろ明確で、base checkpointが隠れた強モデルだと装うのではなく、frozen modelをより賢くorchestrationして勝とうとしている。repositoryもcomparison tableがcontrolled head-to-headではないと明記しており、競合の公開スコアは別task setかつsingle-shot evaluationから来ていると説明している。
その留保を踏まえても、ATLASは興味深いsignalだ。consumer hardware上のcoding systemは、より大きいlocal checkpointだけで進歩する前に、planning、verification、repair loopによってかなり改善する可能性があることを示している。privacy、predictable cost、そしてthird-party APIへdataを出さない運用を重視するteamにとっては特に意味のある流れだ。
一次情報: ATLAS repository。コミュニティ出典: r/artificial thread。
Related Articles
GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。