PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입

2026년 3월 31일 r/LocalLLaMA에 올라온 PrismML의 Bonsai 소개 글은 102점과 43개의 댓글을 기록하며 로컬 추론 커뮤니티의 시선을 끌었다. 링크된 원문에서 PrismML은 Bonsai를 phones, laptops, robots, secure enterprise environments 같은 edge 배치를 겨냥한 end-to-end 1-bit LLM 계열로 소개한다.

공식 발표에 따르면 1-bit Bonsai 8B는 embeddings, attention layers, MLP layers, LM head 전부에 1-bit 구조를 적용했고 higher-precision escape hatch가 없다고 한다. 파라미터 수는 8.2 billion이지만 메모리 footprint는 1.15GB에 불과하며, PrismML은 이것이 비슷한 16-bit 8B 모델보다 약 12배에서 14배 작다고 주장한다. 또한 M4 Pro Mac에서 136 token/s, RTX 4090에서 440 token/s, iPhone 17 Pro Max에서 약 44 token/s를 보고했다.

발표에서 강조한 포인트

양자화 후처리가 아니라 처음부터 end-to-end 1-bit 구조로 설계한 모델 계열이라는 주장이다.
intelligence density라는 자체 지표에서 1-bit Bonsai 8B가 1.06/GB, Qwen3 8B가 0.10/GB라고 비교했다.
온디바이스 inference와 장시간 agent workload에서 throughput과 memory 효율이 동시에 좋아진다고 설명한다.
Apache 2.0 라이선스의 weights와 whitepaper, MLX 및 llama.cpp CUDA 지원을 함께 공개했다.

LocalLLaMA가 즉시 반응한 이유도 여기에 있다. 이 커뮤니티는 지난 1년 동안 더 작은 footprint, 더 낮은 latency, 더 현실적인 로컬 agent 구성을 꾸준히 추적해 왔다. Bonsai의 메시지는 "작게 줄였다"가 아니라 "serious work를 edge에서 돌릴 수 있을 만큼 줄였다"는 주장이다. PrismML은 메모리 절감이 4배에서 5배 수준의 energy efficiency 개선으로도 이어지고, persistent local agent나 secure enterprise copilot 같은 제품 범주를 넓힌다고 말한다.

다만 아직은 launch-day 벤더 데이터다. intelligence density도 PrismML이 정의한 지표이고, 실제 사용자들이 범용 하드웨어에서 동일한 품질과 속도를 재현하는지가 진짜 시험대가 될 것이다. 그래도 이번 발표가 의미 있는 이유는, discussion을 단순 quantization 튜닝에서 처음부터 1-bit 시스템으로 설계된 모델 아키텍처 쪽으로 옮기고 있기 때문이다.

커뮤니티 소스: Reddit 토론. 1차 소스: PrismML 발표.

PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입

발표에서 강조한 포인트

Related Articles

Hacker News가 주목한 ATLAS, local coding agent 비용 모델에 던지는 질문

r/artificial이 주목한 ATLAS, 500달러 GPU에서 LiveCodeBench 74.6%

r/LocalLLaMA, CoPaw-9B 공개에 주목…작은 Agent 모델 기대와 quantization 수요

Comments (0)

Leave a Comment

Related Articles

Hacker News가 주목한 ATLAS, local coding agent 비용 모델에 던지는 질문

r/artificial이 주목한 ATLAS, 500달러 GPU에서 LiveCodeBench 74.6%
r/artificial은 ATLAS가 14B 동결 모델과 단일 RTX 5060 Ti로 LiveCodeBench 74.6%를 기록했다는 점에 주목하며, 모델 크기보다 시스템 설계의 힘을 보여준다고 평가했다.

r/LocalLLaMA, CoPaw-9B 공개에 주목…작은 Agent 모델 기대와 quantization 수요