PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입
Original: PrismML — Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs View original →
2026년 3월 31일 r/LocalLLaMA에 올라온 PrismML의 Bonsai 소개 글은 102점과 43개의 댓글을 기록하며 로컬 추론 커뮤니티의 시선을 끌었다. 링크된 원문에서 PrismML은 Bonsai를 phones, laptops, robots, secure enterprise environments 같은 edge 배치를 겨냥한 end-to-end 1-bit LLM 계열로 소개한다.
공식 발표에 따르면 1-bit Bonsai 8B는 embeddings, attention layers, MLP layers, LM head 전부에 1-bit 구조를 적용했고 higher-precision escape hatch가 없다고 한다. 파라미터 수는 8.2 billion이지만 메모리 footprint는 1.15GB에 불과하며, PrismML은 이것이 비슷한 16-bit 8B 모델보다 약 12배에서 14배 작다고 주장한다. 또한 M4 Pro Mac에서 136 token/s, RTX 4090에서 440 token/s, iPhone 17 Pro Max에서 약 44 token/s를 보고했다.
발표에서 강조한 포인트
- 양자화 후처리가 아니라 처음부터 end-to-end 1-bit 구조로 설계한 모델 계열이라는 주장이다.
- intelligence density라는 자체 지표에서 1-bit Bonsai 8B가 1.06/GB, Qwen3 8B가 0.10/GB라고 비교했다.
- 온디바이스 inference와 장시간 agent workload에서 throughput과 memory 효율이 동시에 좋아진다고 설명한다.
- Apache 2.0 라이선스의 weights와 whitepaper, MLX 및 llama.cpp CUDA 지원을 함께 공개했다.
LocalLLaMA가 즉시 반응한 이유도 여기에 있다. 이 커뮤니티는 지난 1년 동안 더 작은 footprint, 더 낮은 latency, 더 현실적인 로컬 agent 구성을 꾸준히 추적해 왔다. Bonsai의 메시지는 "작게 줄였다"가 아니라 "serious work를 edge에서 돌릴 수 있을 만큼 줄였다"는 주장이다. PrismML은 메모리 절감이 4배에서 5배 수준의 energy efficiency 개선으로도 이어지고, persistent local agent나 secure enterprise copilot 같은 제품 범주를 넓힌다고 말한다.
다만 아직은 launch-day 벤더 데이터다. intelligence density도 PrismML이 정의한 지표이고, 실제 사용자들이 범용 하드웨어에서 동일한 품질과 속도를 재현하는지가 진짜 시험대가 될 것이다. 그래도 이번 발표가 의미 있는 이유는, discussion을 단순 quantization 튜닝에서 처음부터 1-bit 시스템으로 설계된 모델 아키텍처 쪽으로 옮기고 있기 때문이다.
커뮤니티 소스: Reddit 토론. 1차 소스: PrismML 발표.
Related Articles
Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.
Hacker News에 올라온 Prism ML의 1-Bit Bonsai는 1.15GB 8B model부터 iPhone급 1.7B model까지, 1-bit weight로 edge inference economics를 다시 쓰겠다는 시도다. 핵심은 parameter count보다 intelligence density와 hardware fit을 전면에 내세운 점이다.
LocalLLaMA는 1.58-bit model의 가능성에 반응했지만, thread는 곧 어려운 질문으로 향했다. 비교 대상이 quantized Qwen peers가 아니라 full-precision baseline이면 공정한가.