r/artificial이 주목한 ATLAS, 500달러 GPU에서 LiveCodeBench 74.6%

r/artificial이 ATLAS에 주목한 이유는 더 나은 inference infrastructure가 생각보다 큰 성능 격차를 줄일 수 있다고 주장하기 때문이다. project README에 따르면 ATLAS V3는 단일 RTX 5060 Ti 16 GB와 frozen 14B Qwen model만으로 LiveCodeBench v5에서 74.6% pass@1을 기록했다. fine-tuning도 없고, API call도 없고, cloud inference도 없다.

중요한 뉘앙스는 ATLAS가 작은 model 하나가 갑자기 frontier model이 된다고 주장하지 않는다는 점이다. 점수는 pipeline에서 나온다. PlanSearch가 constraint를 추출하고 다양한 접근을 만들고, “Geometric Lens”가 candidate를 정렬하며, sandboxed execution이 이를 테스트하고, self-verified repair stage가 최종 제출 전 실패한 답을 다시 고친다. README는 이 best-of-3 plus repair 과정이 benchmark를 54.9% baseline에서 74.6%까지 끌어올렸다고 설명한다.

repository는 frozen Qwen3-14B-Q4_K_M model로 599개 LiveCodeBench task에서 이 결과를 냈다고 적고 있다.
비용 추정치는 task당 약 $0.004의 local electricity이며, 같은 표의 API 기반 reference system보다 훨씬 낮다.
저자들은 tradeoff가 latency라고 설명한다. 어려운 task는 single forward pass 대신 search, scoring, repair에 compute budget을 쓰기 때문에 수분이 걸릴 수 있다.

바로 그 tradeoff 때문에 Reddit post가 반응을 얻었다. “local이 frontier를 이긴다”는 식의 주장 상당수는 raw model quality와 system design의 차이를 흐린다. ATLAS는 오히려 더 솔직하다. base checkpoint가 숨겨진 강자라고 포장하는 대신, frozen model을 더 잘 orchestration해서 이기려 한다. repository도 비교 표가 controlled head-to-head가 아니라고 분명히 적는다. 경쟁 모델 수치는 다른 task set과 single-shot evaluation에서 가져왔기 때문이다.

그 한계를 감안해도 ATLAS는 의미 있는 신호다. consumer hardware 기반 coding system은 더 큰 local checkpoint만으로 발전하기보다, planning, verification, repair loop를 통해 먼저 크게 개선될 수 있음을 시사한다. privacy, predictable cost, 그리고 third-party API 밖으로 데이터를 내보내지 않는 운영을 중시하는 팀에는 특히 중요한 흐름이다.

1차 출처: ATLAS repository. 커뮤니티 출처: r/artificial 스레드.

r/artificial이 주목한 ATLAS, 500달러 GPU에서 LiveCodeBench 74.6%

Related Articles

Gemma 4 QAT, 엣지 AI 실행 메모리를 1GB 목표까지 낮춘 새 체크포인트

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가

Hacker News가 주목한 ATLAS, local coding agent 비용 모델에 던지는 질문