PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입
Original: PrismML — Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs View original →
2026년 3월 31일 r/LocalLLaMA에 올라온 PrismML의 Bonsai 소개 글은 102점과 43개의 댓글을 기록하며 로컬 추론 커뮤니티의 시선을 끌었다. 링크된 원문에서 PrismML은 Bonsai를 phones, laptops, robots, secure enterprise environments 같은 edge 배치를 겨냥한 end-to-end 1-bit LLM 계열로 소개한다.
공식 발표에 따르면 1-bit Bonsai 8B는 embeddings, attention layers, MLP layers, LM head 전부에 1-bit 구조를 적용했고 higher-precision escape hatch가 없다고 한다. 파라미터 수는 8.2 billion이지만 메모리 footprint는 1.15GB에 불과하며, PrismML은 이것이 비슷한 16-bit 8B 모델보다 약 12배에서 14배 작다고 주장한다. 또한 M4 Pro Mac에서 136 token/s, RTX 4090에서 440 token/s, iPhone 17 Pro Max에서 약 44 token/s를 보고했다.
발표에서 강조한 포인트
- 양자화 후처리가 아니라 처음부터 end-to-end 1-bit 구조로 설계한 모델 계열이라는 주장이다.
- intelligence density라는 자체 지표에서 1-bit Bonsai 8B가 1.06/GB, Qwen3 8B가 0.10/GB라고 비교했다.
- 온디바이스 inference와 장시간 agent workload에서 throughput과 memory 효율이 동시에 좋아진다고 설명한다.
- Apache 2.0 라이선스의 weights와 whitepaper, MLX 및 llama.cpp CUDA 지원을 함께 공개했다.
LocalLLaMA가 즉시 반응한 이유도 여기에 있다. 이 커뮤니티는 지난 1년 동안 더 작은 footprint, 더 낮은 latency, 더 현실적인 로컬 agent 구성을 꾸준히 추적해 왔다. Bonsai의 메시지는 "작게 줄였다"가 아니라 "serious work를 edge에서 돌릴 수 있을 만큼 줄였다"는 주장이다. PrismML은 메모리 절감이 4배에서 5배 수준의 energy efficiency 개선으로도 이어지고, persistent local agent나 secure enterprise copilot 같은 제품 범주를 넓힌다고 말한다.
다만 아직은 launch-day 벤더 데이터다. intelligence density도 PrismML이 정의한 지표이고, 실제 사용자들이 범용 하드웨어에서 동일한 품질과 속도를 재현하는지가 진짜 시험대가 될 것이다. 그래도 이번 발표가 의미 있는 이유는, discussion을 단순 quantization 튜닝에서 처음부터 1-bit 시스템으로 설계된 모델 아키텍처 쪽으로 옮기고 있기 때문이다.
커뮤니티 소스: Reddit 토론. 1차 소스: PrismML 발표.
Related Articles
Hacker News에서 화제가 된 ATLAS는 consumer GPU 기반 local coding agent의 비용 효율을 크게 강조한다. 다만 README의 74.6% LiveCodeBench 수치는 best-of-3 plus repair 파이프라인과 다른 task 수를 전제로 하므로, Claude 4.5 Sonnet과의 비교는 비통제 비교로 읽어야 한다.
r/artificial은 ATLAS가 14B 동결 모델과 단일 RTX 5060 Ti로 LiveCodeBench 74.6%를 기록했다는 점에 주목하며, 모델 크기보다 시스템 설계의 힘을 보여준다고 평가했다.
r/LocalLLaMA에서 CoPaw-9B 관련 글이 142점과 29개 댓글을 기록하며 주목을 받았다. 스레드는 Qwen3.5 기반의 9B Agent 모델, 262,144 token context, 그리고 GGUF·quantized 배포 가능성에 대한 관심을 중심으로 반응이 갈렸다.
Comments (0)
No comments yet. Be the first to comment!