Ternary Bonsai, LocalLLaMA는 압축 claim의 공정성을 먼저 따졌다

Original: Ternary Bonsai: Top intelligence at 1.58 bits View original →

Read in other languages: English日本語
LLM Apr 17, 2026 By Insights AI (Reddit) 2 min read Source

작아진 model family와 날카로운 단서

PrismML의 Ternary Bonsai 글은 LocalLLaMA에서 112점과 댓글 34개를 얻었다. 커뮤니티가 가장 좋아하는 제약, 즉 평범한 hardware에 얼마나 쓸 만한 model을 넣을 수 있느냐를 정면으로 다뤘기 때문이다. PrismML은 Ternary Bonsai가 embeddings, attention layers, MLPs, LM head 전반에 1.58-bit weights를 쓰며, 세 상태 {-1, 0, +1}로 weight를 표현한다고 설명한다. Model family는 1.7B, 4B, 8B parameter로 구성되고, 8B version은 1.75GB와 평균 benchmark score 75.5를 제시한다.

Headline claim은 매력적이다. PrismML은 Ternary Bonsai 8B가 1-bit Bonsai 8B보다 평균 benchmark 5점 높고, memory는 약 600MB만 더 든다고 말한다. Apple device에서는 MLX로 native 실행된다고 하며, M4 Pro에서 82 toks/sec, iPhone 17 Pro Max에서 27 toks/sec도 제시했다. Edge AI와 local assistant를 생각하는 사용자에게는 스크롤을 멈추게 하는 숫자다.

LocalLLaMA는 비교 기준을 물었다

상위 댓글들은 적대적이지 않았지만, 매우 LocalLLaMA다운 방식으로 회의적이었다. 여러 사용자는 Ternary Bonsai의 크기를 full 16-bit peer와 비교하면 장점이 과장될 수 있다고 지적했다. 실제 사용자는 Q4 quantized model과 비교하고 싶어 한다. 커뮤니티가 사는 세계는 깨끗한 FP16 baseline이 아니라 GGUF file, mixed quantization, quality-speed-memory tradeoff의 세계이기 때문이다.

또 다른 쟁점은 provenance였다. 댓글에서는 이 모델들이 scratch부터 quantization aware하게 학습된 것이 아니라 Qwen3 기반 quant로 보인다는 말도 나왔다. 그것이 작업의 가치를 없애지는 않지만, claim을 해석하는 방식은 바꾼다. LocalLLaMA는 영리한 table보다 실제로 쓸 수 있는 model을 원한다. 1.58-bit model이 더 작아도 잘 조정된 Q4 model보다 품질 손실이 크다면, memory win만으로는 충분하지 않을 수 있다.

진짜 질문은 Pareto frontier다

Ternary Bonsai가 흥미로운 이유는 두 본능 사이에 있기 때문이다. 하나는 browser나 phone에서도 돌아가는 가장 작은 model을 원한다. 다른 하나는 항상 켜져 있는 local workflow를 위해 watt와 GB당 최고의 품질을 원한다. 1.58-bit family가 진짜 의미 있으려면 table에서 uncompressed model을 이기는 것이 아니라, performance-size curve 자체를 밀어야 한다.

그래서 이 thread의 에너지는 건설적인 압박에 가까웠다. 사용자는 35B나 122B 같은 더 큰 variant를 요구했고, 실제로 돌리는 format에 대한 강한 비교를 원했다. 이는 건강한 신호다. 커뮤니티는 extreme compression에 흥분하지만, 이제 reproducible numbers, realistic baselines, 실제 prompt를 견디는 download를 요구할 줄 안다.

PrismML post · Reddit discussion

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.