Reddit가 직접 시험한 PrismML Bonsai 1-bit 모델, 발표 이상으로 가벼운 local LLM
Original: The Bonsai 1-bit models are very good View original →
r/LocalLLaMA는 2026년 4월 1일 공개된 PrismML의 Bonsai 시리즈에 이례적으로 강한 호응을 보이고 있다. PrismML은 Bonsai 8B를 embedding, attention, MLP layer, LM head 전체가 1-bit로 구성된 end-to-end 모델이라고 설명한다. 모델 크기는 8.2B parameter지만 footprint는 약 1.15 GB 수준이라고 주장한다. 회사의 메시지는 단순한 비용 절감이 아니라, 충분한 capability를 유지한 채 intelligence를 phone, laptop, vehicle, robot, secure edge 환경까지 내려보내는 것이다.
공식 발표는 꽤 공격적인 수치를 내놓는다. PrismML은 Bonsai 8B가 비슷한 8B full-precision 모델보다 약 12-14배 작고, 자체 지표 기준 intelligence density가 1.06/GB로 Qwen3 8B의 0.10/GB를 크게 앞선다고 말한다. 또 iPhone 17 Pro에서 약 40 tokens/sec로 실행할 수 있다고도 주장한다. 하지만 이 발표를 진짜 흥미롭게 만드는 것은 Reddit 쪽 체감 보고다. AnythingLLM의 Tim은 M4 Max 48GB MacBook Pro에서 Bonsai 8B를 시험해 본 결과, chat, 요약, tool use, web search 같은 실사용에서 기존 BitNet류 실험 모델보다 훨씬 낫게 느껴졌다고 적었다.
- PrismML은 Bonsai를 benchmark보다 edge와 on-device deployment 이야기로 포지셔닝한다.
- Reddit 작성자는 기존 local 8B급 구성보다 memory pressure가 눈에 띄게 낮았다고 설명한다.
- 현재 약점은 runtime support로, stock upstream이 아니라 PrismML fork 기반
llama.cpp경로가 필요하다.
바로 이 runtime 제약 때문에 Reddit 반응도 마냥 들떠 있지는 않다. 작은 모델이 상업적으로 의미 있으려면 mainstream toolchain을 타야 한다. 게시물은 PrismML fork가 upstream llama.cpp보다 뒤처져 있다고 적고, 최근의 KV rotation 같은 upstream 변화가 장기적으로 간극을 줄일 수는 있어도 당장 frictionless한 drop-in replacement는 아니라는 점을 짚는다. 그래서 커뮤니티는 Bonsai를 “바로 표준이 된 제품”보다 “배포 가능성을 입증한 강한 신호”로 받아들이는 분위기다.
그래도 이 반응은 충분히 중요하다. 로컬 모델 커뮤니티는 기술적으로 흥미롭지만 실제로는 쓰기 어려운 extreme compression 데모를 많이 봐 왔다. Bonsai가 다르게 읽히는 이유는 크기, 속도, 체감 사용성이 함께 이야기되고 있기 때문이다. 초기 인상이 유지된다면, Bonsai는 또 하나의 quantization curiosity가 아니라, serious local LLM capability가 예상보다 훨씬 빠르게 consumer와 edge hardware로 내려오고 있다는 신호가 될 수 있다.
출처: PrismML · r/LocalLLaMA 토론
Related Articles
Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.
r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.
LocalLLaMA가 크게 반응한 이유는 demo가 직관적이었기 때문이다. 약 290MB짜리 1.7B Bonsai model이 WebGPU로 browser 안에서 돈다. 같은 thread는 곧바로 tokens per second, hallucination, llama.cpp support, 그리고 1-bit model이 narrow task 밖에서도 쓸 만한지 따지며 현실 체크를 붙였다.