Ternary Bonsai, LocalLLaMA는 압축 claim의 공정성을 먼저 따졌다

작아진 model family와 날카로운 단서

PrismML의 Ternary Bonsai 글은 LocalLLaMA에서 112점과 댓글 34개를 얻었다. 커뮤니티가 가장 좋아하는 제약, 즉 평범한 hardware에 얼마나 쓸 만한 model을 넣을 수 있느냐를 정면으로 다뤘기 때문이다. PrismML은 Ternary Bonsai가 embeddings, attention layers, MLPs, LM head 전반에 1.58-bit weights를 쓰며, 세 상태 {-1, 0, +1}로 weight를 표현한다고 설명한다. Model family는 1.7B, 4B, 8B parameter로 구성되고, 8B version은 1.75GB와 평균 benchmark score 75.5를 제시한다.

Headline claim은 매력적이다. PrismML은 Ternary Bonsai 8B가 1-bit Bonsai 8B보다 평균 benchmark 5점 높고, memory는 약 600MB만 더 든다고 말한다. Apple device에서는 MLX로 native 실행된다고 하며, M4 Pro에서 82 toks/sec, iPhone 17 Pro Max에서 27 toks/sec도 제시했다. Edge AI와 local assistant를 생각하는 사용자에게는 스크롤을 멈추게 하는 숫자다.

LocalLLaMA는 비교 기준을 물었다

상위 댓글들은 적대적이지 않았지만, 매우 LocalLLaMA다운 방식으로 회의적이었다. 여러 사용자는 Ternary Bonsai의 크기를 full 16-bit peer와 비교하면 장점이 과장될 수 있다고 지적했다. 실제 사용자는 Q4 quantized model과 비교하고 싶어 한다. 커뮤니티가 사는 세계는 깨끗한 FP16 baseline이 아니라 GGUF file, mixed quantization, quality-speed-memory tradeoff의 세계이기 때문이다.

또 다른 쟁점은 provenance였다. 댓글에서는 이 모델들이 scratch부터 quantization aware하게 학습된 것이 아니라 Qwen3 기반 quant로 보인다는 말도 나왔다. 그것이 작업의 가치를 없애지는 않지만, claim을 해석하는 방식은 바꾼다. LocalLLaMA는 영리한 table보다 실제로 쓸 수 있는 model을 원한다. 1.58-bit model이 더 작아도 잘 조정된 Q4 model보다 품질 손실이 크다면, memory win만으로는 충분하지 않을 수 있다.

진짜 질문은 Pareto frontier다

Ternary Bonsai가 흥미로운 이유는 두 본능 사이에 있기 때문이다. 하나는 browser나 phone에서도 돌아가는 가장 작은 model을 원한다. 다른 하나는 항상 켜져 있는 local workflow를 위해 watt와 GB당 최고의 품질을 원한다. 1.58-bit family가 진짜 의미 있으려면 table에서 uncompressed model을 이기는 것이 아니라, performance-size curve 자체를 밀어야 한다.

그래서 이 thread의 에너지는 건설적인 압박에 가까웠다. 사용자는 35B나 122B 같은 더 큰 variant를 요구했고, 실제로 돌리는 format에 대한 강한 비교를 원했다. 이는 건강한 신호다. 커뮤니티는 extreme compression에 흥분하지만, 이제 reproducible numbers, realistic baselines, 실제 prompt를 견디는 download를 요구할 줄 안다.

PrismML post · Reddit discussion

Ternary Bonsai, LocalLLaMA는 압축 claim의 공정성을 먼저 따졌다

작아진 model family와 날카로운 단서

LocalLLaMA는 비교 기준을 물었다

진짜 질문은 Pareto frontier다

Related Articles

Reddit가 직접 시험한 PrismML Bonsai 1-bit 모델, 발표 이상으로 가벼운 local LLM

PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입

r/LocalLLaMA가 찾은 Gemma 4 long context의 privacy-first 활용

Comments (0)

Leave a Comment

Related Articles

Reddit가 직접 시험한 PrismML Bonsai 1-bit 모델, 발표 이상으로 가벼운 local LLM
LLM Reddit Apr 2, 2026 1 min read

PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입
LLM Reddit Apr 1, 2026 1 min read

r/LocalLLaMA가 찾은 Gemma 4 long context의 privacy-first 활용
인기 있는 r/LocalLLaMA thread는 Gemma 4의 256k context window로 100k+ token 개인 저널을 로컬에서 분석한 사례를 소개하며, privacy가 on-device LLM의 실용적 이유가 될 수 있음을 보여줬다.