Ternary Bonsai、LocalLLaMAはcompression claimの比較軸を疑った
Original: Ternary Bonsai: Top intelligence at 1.58 bits View original →
小さなmodel familyと鋭い但し書き
PrismMLのTernary Bonsai投稿は、LocalLLaMAで112ポイント、34コメントを集めた。普通のhardwareにどれだけ使えるmodelを詰め込めるかという、コミュニティの中心的な関心に直接触れたからだ。PrismMLによれば、Ternary Bonsaiはembeddings、attention layers、MLPs、LM head全体で1.58-bit weightsを使い、weightを{-1, 0, +1}の3状態で表す。Familyは1.7B、4B、8B parameterで、8B版は1.75GB、平均benchmark score 75.5とされる。
Headline claimは魅力的だ。PrismMLはTernary Bonsai 8Bが1-bit Bonsai 8Bより平均benchmarkで5ポイント高く、memoryは約600MB増えるだけだとする。Apple devicesではMLXでnative実行でき、M4 Proで82 toks/sec、iPhone 17 Pro Maxで27 toks/secという数字も出している。Edge AIやlocal assistantを考えるユーザーには、十分に目を止める数字だ。
LocalLLaMAは比較相手を問うた
上位コメントは敵対的ではなかったが、非常にLocalLLaMAらしく懐疑的だった。複数のユーザーは、Ternary Bonsaiのsize advantageをfull 16-bit peersと比べると大きく見えすぎるのではないかと指摘した。実際のユーザーが知りたいのはQ4 quantized modelとの比較だ。コミュニティが生きているのは、きれいなFP16 baselineではなく、GGUF file、mixed quantization、quality-speed-memory tradeoffの世界だからだ。
もうひとつの論点はprovenanceだった。コメントでは、これらのモデルはscratchからquantization awareに学習されたものではなく、Qwen3をquantizeしたものに見えるという指摘も出た。それで価値がなくなるわけではないが、claimの読み方は変わる。LocalLLaMAが欲しいのは賢いtableではなく、実際に使えるmodelだ。1.58-bit modelが小さくても、よく調整されたQ4 modelに対して品質を落としすぎるなら、memory winだけでは足りない。
本当の問いはPareto frontier
Ternary Bonsaiが面白いのは、二つの欲求の間にあるからだ。ひとつはbrowserやphoneでも動く最小modelを求める欲求。もうひとつは、常時動くlocal workflowのためにwattとGBあたりの品質を最大化したい欲求だ。1.58-bit familyが本当に意味を持つには、table上でuncompressed modelに勝つだけでなく、performance-size curve自体を押し動かす必要がある。
このthreadの熱は、建設的な圧力に近かった。ユーザーは35Bや122B級の大きなvariantを求め、自分たちが実際に動かすformatとの強い比較を求めた。これは健全な反応だ。コミュニティはextreme compressionに興奮する一方で、reproducible numbers、realistic baselines、実際のpromptに耐えるdownloadを要求するようになっている。
Related Articles
r/LocalLLaMAで注目を集めたPrismMLの1-bit Bonsaiは、8.2Bパラメータのモデルを1.15GBに収めるend-to-end 1-bit設計を前面に出している。焦点は単なる圧縮ではなく、オンデバイスでのthroughputとenergy efficiencyの実用化だ。
人気のr/LocalLLaMA threadは、Gemma 4の256k context windowで100k+ tokenの個人journalをローカル分析した事例を示し、privacyがon-device LLMを動かす実用的な理由になり得ることを示した。
r/LocalLLaMAの反応は、PrismML Bonsai の発表が単なる compression headline 以上に受け止められていることを示している。会社の end-to-end 1-bit 設計の主張と、実際の利用者が感じた使い勝手の改善が同時に語られている。
Comments (0)
No comments yet. Be the first to comment!