r/artificial이 주목한 ATLAS, 500달러 GPU에서 LiveCodeBench 74.6%
Original: Open-source AI system on a $500 GPU outperforms Claude Sonnet on coding benchmarks View original →
r/artificial이 ATLAS에 주목한 이유는 더 나은 inference infrastructure가 생각보다 큰 성능 격차를 줄일 수 있다고 주장하기 때문이다. project README에 따르면 ATLAS V3는 단일 RTX 5060 Ti 16 GB와 frozen 14B Qwen model만으로 LiveCodeBench v5에서 74.6% pass@1을 기록했다. fine-tuning도 없고, API call도 없고, cloud inference도 없다.
중요한 뉘앙스는 ATLAS가 작은 model 하나가 갑자기 frontier model이 된다고 주장하지 않는다는 점이다. 점수는 pipeline에서 나온다. PlanSearch가 constraint를 추출하고 다양한 접근을 만들고, “Geometric Lens”가 candidate를 정렬하며, sandboxed execution이 이를 테스트하고, self-verified repair stage가 최종 제출 전 실패한 답을 다시 고친다. README는 이 best-of-3 plus repair 과정이 benchmark를 54.9% baseline에서 74.6%까지 끌어올렸다고 설명한다.
- repository는 frozen
Qwen3-14B-Q4_K_Mmodel로 599개 LiveCodeBench task에서 이 결과를 냈다고 적고 있다. - 비용 추정치는 task당 약
$0.004의 local electricity이며, 같은 표의 API 기반 reference system보다 훨씬 낮다. - 저자들은 tradeoff가 latency라고 설명한다. 어려운 task는 single forward pass 대신 search, scoring, repair에 compute budget을 쓰기 때문에 수분이 걸릴 수 있다.
바로 그 tradeoff 때문에 Reddit post가 반응을 얻었다. “local이 frontier를 이긴다”는 식의 주장 상당수는 raw model quality와 system design의 차이를 흐린다. ATLAS는 오히려 더 솔직하다. base checkpoint가 숨겨진 강자라고 포장하는 대신, frozen model을 더 잘 orchestration해서 이기려 한다. repository도 비교 표가 controlled head-to-head가 아니라고 분명히 적는다. 경쟁 모델 수치는 다른 task set과 single-shot evaluation에서 가져왔기 때문이다.
그 한계를 감안해도 ATLAS는 의미 있는 신호다. consumer hardware 기반 coding system은 더 큰 local checkpoint만으로 발전하기보다, planning, verification, repair loop를 통해 먼저 크게 개선될 수 있음을 시사한다. privacy, predictable cost, 그리고 third-party API 밖으로 데이터를 내보내지 않는 운영을 중시하는 팀에는 특히 중요한 흐름이다.
1차 출처: ATLAS repository. 커뮤니티 출처: r/artificial 스레드.
Related Articles
Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
Hacker News에서 화제가 된 ATLAS는 consumer GPU 기반 local coding agent의 비용 효율을 크게 강조한다. 다만 README의 74.6% LiveCodeBench 수치는 best-of-3 plus repair 파이프라인과 다른 task 수를 전제로 하므로, Claude 4.5 Sonnet과의 비교는 비통제 비교로 읽어야 한다.