PrismML、エッジ向け1-bit LLM「Bonsai」を発表
Original: PrismML — Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs View original →
2026年3月31日、r/LocalLLaMAに投稿されたPrismMLのBonsai紹介は102ポイント、43件のコメントを集め、ローカル推論コミュニティで大きな関心を呼んだ。リンク先の発表でPrismMLは、Bonsaiをphones、laptops、robots、secure enterprise environmentsのようなedge配備を狙うend-to-end 1-bit LLM群として説明している。
公式発表によれば、1-bit Bonsai 8Bはembeddings、attention layers、MLP layers、LM headのすべてに1-bit構造を適用し、higher-precision escape hatchを持たないという。パラメータ数は8.2 billionだが、memory footprintは1.15GBで、PrismMLは同等クラスの16-bit 8Bモデルより約12倍から14倍小さいと主張している。さらにM4 Pro Macで136 token/s、RTX 4090で440 token/s、iPhone 17 Pro Maxで約44 token/sという数値を示した。
発表で強調された点
- 後段のquantizationではなく、最初からend-to-end 1-bitとして設計されたモデルだと打ち出している。
- PrismML独自のintelligence density指標では、Bonsai 8Bが1.06/GB、Qwen3 8Bが0.10/GBとされる。
- オンデバイス推論や長時間agent workloadで、memory効率とthroughputの両方が改善すると説明している。
- Apache 2.0のweights、whitepaper、MLXとllama.cpp CUDA対応も同時に公開した。
LocalLLaMAがすぐ反応したのは自然だ。このsubredditはここ1年、より小さいfootprint、より低いlatency、現実的なオンデバイスagent構成を追い続けてきた。Bonsaiは「収まるかどうか」ではなく「edgeでserious workができるか」という水準に議論を押し上げようとしている。PrismMLは、memory削減が4倍から5倍のenergy efficiency改善にもつながり、persistent local agentやsecure enterprise copilot、offline AI productの可能性を広げると述べている。
ただし、これはまだベンダーが示したlaunch-dayデータであり、新しいintelligence density指標もPrismML自身が定義したものだ。実際の評価は、外部ユーザーが市販ハードウェアで速度や品質、tool-useの主張を再現できるかにかかっている。それでも今回の発表が重要なのは、議論を単なるpost-training quantizationから、最初から1-bit systemとして設計されたモデルへと移している点にある。
Related Articles
GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。
Hacker Newsに投稿されたPrism MLの1-Bit Bonsaiは、1.15GBの8B modelからiPhone級の1.7B modelまでを掲げ、1-bit weightでedge inference economicsを作り替えようとしている。焦点はparameter countではなく、intelligence densityとhardware fitにある。
LocalLLaMAは1.58-bit modelの約束に反応したが、threadはすぐに厳しい問いへ向かった。比較相手がquantized Qwen peersではなくfull-precision baselineなら公平なのか。