PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입

2026년 3월 31일 r/LocalLLaMA에 올라온 PrismML의 Bonsai 소개 글은 102점과 43개의 댓글을 기록하며 로컬 추론 커뮤니티의 시선을 끌었다. 링크된 원문에서 PrismML은 Bonsai를 phones, laptops, robots, secure enterprise environments 같은 edge 배치를 겨냥한 end-to-end 1-bit LLM 계열로 소개한다.

공식 발표에 따르면 1-bit Bonsai 8B는 embeddings, attention layers, MLP layers, LM head 전부에 1-bit 구조를 적용했고 higher-precision escape hatch가 없다고 한다. 파라미터 수는 8.2 billion이지만 메모리 footprint는 1.15GB에 불과하며, PrismML은 이것이 비슷한 16-bit 8B 모델보다 약 12배에서 14배 작다고 주장한다. 또한 M4 Pro Mac에서 136 token/s, RTX 4090에서 440 token/s, iPhone 17 Pro Max에서 약 44 token/s를 보고했다.

발표에서 강조한 포인트

양자화 후처리가 아니라 처음부터 end-to-end 1-bit 구조로 설계한 모델 계열이라는 주장이다.
intelligence density라는 자체 지표에서 1-bit Bonsai 8B가 1.06/GB, Qwen3 8B가 0.10/GB라고 비교했다.
온디바이스 inference와 장시간 agent workload에서 throughput과 memory 효율이 동시에 좋아진다고 설명한다.
Apache 2.0 라이선스의 weights와 whitepaper, MLX 및 llama.cpp CUDA 지원을 함께 공개했다.

LocalLLaMA가 즉시 반응한 이유도 여기에 있다. 이 커뮤니티는 지난 1년 동안 더 작은 footprint, 더 낮은 latency, 더 현실적인 로컬 agent 구성을 꾸준히 추적해 왔다. Bonsai의 메시지는 "작게 줄였다"가 아니라 "serious work를 edge에서 돌릴 수 있을 만큼 줄였다"는 주장이다. PrismML은 메모리 절감이 4배에서 5배 수준의 energy efficiency 개선으로도 이어지고, persistent local agent나 secure enterprise copilot 같은 제품 범주를 넓힌다고 말한다.

다만 아직은 launch-day 벤더 데이터다. intelligence density도 PrismML이 정의한 지표이고, 실제 사용자들이 범용 하드웨어에서 동일한 품질과 속도를 재현하는지가 진짜 시험대가 될 것이다. 그래도 이번 발표가 의미 있는 이유는, discussion을 단순 quantization 튜닝에서 처음부터 1-bit 시스템으로 설계된 모델 아키텍처 쪽으로 옮기고 있기 때문이다.

커뮤니티 소스: Reddit 토론. 1차 소스: PrismML 발표.

PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입

발표에서 강조한 포인트

Related Articles

Gemma 4 QAT, 엣지 AI 실행 메모리를 1GB 목표까지 낮춘 새 체크포인트

Show HN: 1-Bit Bonsai가 던진 질문, 초저메모리 LLM은 edge에서 어디까지 갈 수 있나

Ternary Bonsai, LocalLLaMA는 압축 claim의 공정성을 먼저 따졌다