r/artificial이 주목한 ATLAS, 500달러 GPU에서 LiveCodeBench 74.6%
Original: Open-source AI system on a $500 GPU outperforms Claude Sonnet on coding benchmarks View original →
r/artificial이 ATLAS에 주목한 이유는 더 나은 inference infrastructure가 생각보다 큰 성능 격차를 줄일 수 있다고 주장하기 때문이다. project README에 따르면 ATLAS V3는 단일 RTX 5060 Ti 16 GB와 frozen 14B Qwen model만으로 LiveCodeBench v5에서 74.6% pass@1을 기록했다. fine-tuning도 없고, API call도 없고, cloud inference도 없다.
중요한 뉘앙스는 ATLAS가 작은 model 하나가 갑자기 frontier model이 된다고 주장하지 않는다는 점이다. 점수는 pipeline에서 나온다. PlanSearch가 constraint를 추출하고 다양한 접근을 만들고, “Geometric Lens”가 candidate를 정렬하며, sandboxed execution이 이를 테스트하고, self-verified repair stage가 최종 제출 전 실패한 답을 다시 고친다. README는 이 best-of-3 plus repair 과정이 benchmark를 54.9% baseline에서 74.6%까지 끌어올렸다고 설명한다.
- repository는 frozen
Qwen3-14B-Q4_K_Mmodel로 599개 LiveCodeBench task에서 이 결과를 냈다고 적고 있다. - 비용 추정치는 task당 약
$0.004의 local electricity이며, 같은 표의 API 기반 reference system보다 훨씬 낮다. - 저자들은 tradeoff가 latency라고 설명한다. 어려운 task는 single forward pass 대신 search, scoring, repair에 compute budget을 쓰기 때문에 수분이 걸릴 수 있다.
바로 그 tradeoff 때문에 Reddit post가 반응을 얻었다. “local이 frontier를 이긴다”는 식의 주장 상당수는 raw model quality와 system design의 차이를 흐린다. ATLAS는 오히려 더 솔직하다. base checkpoint가 숨겨진 강자라고 포장하는 대신, frozen model을 더 잘 orchestration해서 이기려 한다. repository도 비교 표가 controlled head-to-head가 아니라고 분명히 적는다. 경쟁 모델 수치는 다른 task set과 single-shot evaluation에서 가져왔기 때문이다.
그 한계를 감안해도 ATLAS는 의미 있는 신호다. consumer hardware 기반 coding system은 더 큰 local checkpoint만으로 발전하기보다, planning, verification, repair loop를 통해 먼저 크게 개선될 수 있음을 시사한다. privacy, predictable cost, 그리고 third-party API 밖으로 데이터를 내보내지 않는 운영을 중시하는 팀에는 특히 중요한 흐름이다.
1차 출처: ATLAS repository. 커뮤니티 출처: r/artificial 스레드.
Related Articles
Hacker News에서 주목받은 Flash-MoE는 Qwen3.5-397B-A17B를 48GB 메모리의 MacBook Pro에서 구동하는 C/Metal 기반 inference 엔진이다. 핵심은 209GB 모델을 SSD에서 스트리밍하면서 sparse MoE 계산을 유지하는 설계다.
r/LocalLLaMA에서 주목받은 mlx-lm PR #990은 Qwen3.5의 built-in MTP head를 native speculative decoding에 활용해 15.3 -> 23.3 tok/s (~1.5x throughput boost), ~80.6% acceptance rate를 제시했다. 다만 converted checkpoint, batching 비활성화, MoE 미검증 같은 운영상 제약도 함께 확인해야 한다.
2026년 3월 17일 r/LocalLLaMA에 올라온 Hugging Face hf-agents 글은 크롤링 시점 기준 624점과 78개 댓글을 기록했다. 이 extension은 llmfit으로 하드웨어를 감지하고, 적절한 model/quant를 추천한 뒤, llama.cpp와 Pi coding agent를 연결한다.
Comments (0)
No comments yet. Be the first to comment!