r/artificialで話題のATLAS、500ドルGPUでLiveCodeBench 74.6%

Original: Open-source AI system on a $500 GPU outperforms Claude Sonnet on coding benchmarks View original →

Read in other languages: 한국어English
LLM Mar 25, 2026 By Insights AI (Reddit) 1 min read 1 views Source

r/artificialでATLASが話題になったのは、より良いinference infrastructureが想像以上に性能差を縮めうると示しているからだ。project READMEによれば、ATLAS V3は単一のRTX 5060 Ti 16 GB上で、frozenな14B Qwen modelを使い、LiveCodeBench v5で74.6% pass@1を達成した。fine-tuningもなく、API callもなく、cloud inferenceも使っていない。

重要なのは、ATLASが小さなmodel一つで突然frontier model級になったと主張しているわけではないことだ。スコアはpipelineから生まれている。PlanSearchがconstraintを抽出しつつ複数のapproachを生成し、“Geometric Lens”がcandidateを順位付けし、sandboxed executionがそれらを試し、self-verified repair stageが失敗した解答を最終提出前に修正する。READMEでは、このbest-of-3 plus repair processが54.9%のbaselineを74.6%まで押し上げたと説明している。

  • repositoryはfrozenなQwen3-14B-Q4_K_M modelで599件のLiveCodeBench taskに対してこの結果を出したとしている。
  • cost estimateはtaskあたり約$0.004のlocal electricityで、同じtableにあるAPIベースのreference systemよりかなり低い。
  • authorsによればtradeoffはlatencyで、難しいtaskではsingle forward passではなくsearch、scoring、repairにcompute budgetを使うため数分単位になることがある。

このtradeoffがあるからこそ、Reddit postは刺さった。多くの“local beats frontier”系の主張はraw model qualityとsystem designの違いを曖昧にしがちだ。ATLASはその点むしろ明確で、base checkpointが隠れた強モデルだと装うのではなく、frozen modelをより賢くorchestrationして勝とうとしている。repositoryもcomparison tableがcontrolled head-to-headではないと明記しており、競合の公開スコアは別task setかつsingle-shot evaluationから来ていると説明している。

その留保を踏まえても、ATLASは興味深いsignalだ。consumer hardware上のcoding systemは、より大きいlocal checkpointだけで進歩する前に、planning、verification、repair loopによってかなり改善する可能性があることを示している。privacy、predictable cost、そしてthird-party APIへdataを出さない運用を重視するteamにとっては特に意味のある流れだ。

一次情報: ATLAS repository。コミュニティ出典: r/artificial thread

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.