PrismML、エッジ向け1-bit LLM「Bonsai」を発表

2026年3月31日、r/LocalLLaMAに投稿されたPrismMLのBonsai紹介は102ポイント、43件のコメントを集め、ローカル推論コミュニティで大きな関心を呼んだ。リンク先の発表でPrismMLは、Bonsaiをphones、laptops、robots、secure enterprise environmentsのようなedge配備を狙うend-to-end 1-bit LLM群として説明している。

公式発表によれば、1-bit Bonsai 8Bはembeddings、attention layers、MLP layers、LM headのすべてに1-bit構造を適用し、higher-precision escape hatchを持たないという。パラメータ数は8.2 billionだが、memory footprintは1.15GBで、PrismMLは同等クラスの16-bit 8Bモデルより約12倍から14倍小さいと主張している。さらにM4 Pro Macで136 token/s、RTX 4090で440 token/s、iPhone 17 Pro Maxで約44 token/sという数値を示した。

発表で強調された点

後段のquantizationではなく、最初からend-to-end 1-bitとして設計されたモデルだと打ち出している。
PrismML独自のintelligence density指標では、Bonsai 8Bが1.06/GB、Qwen3 8Bが0.10/GBとされる。
オンデバイス推論や長時間agent workloadで、memory効率とthroughputの両方が改善すると説明している。
Apache 2.0のweights、whitepaper、MLXとllama.cpp CUDA対応も同時に公開した。

LocalLLaMAがすぐ反応したのは自然だ。このsubredditはここ1年、より小さいfootprint、より低いlatency、現実的なオンデバイスagent構成を追い続けてきた。Bonsaiは「収まるかどうか」ではなく「edgeでserious workができるか」という水準に議論を押し上げようとしている。PrismMLは、memory削減が4倍から5倍のenergy efficiency改善にもつながり、persistent local agentやsecure enterprise copilot、offline AI productの可能性を広げると述べている。

ただし、これはまだベンダーが示したlaunch-dayデータであり、新しいintelligence density指標もPrismML自身が定義したものだ。実際の評価は、外部ユーザーが市販ハードウェアで速度や品質、tool-useの主張を再現できるかにかかっている。それでも今回の発表が重要なのは、議論を単なるpost-training quantizationから、最初から1-bit systemとして設計されたモデルへと移している点にある。

コミュニティソース: Reddit議論。一次ソース: PrismML発表。

PrismML、エッジ向け1-bit LLM「Bonsai」を発表

発表で強調された点

Related Articles

Show HNで注目を集めた1-Bit Bonsai、超低メモリLLMはedge推論をどこまで変えるか

8ドルのESP32で28.9M LLM、鍵はflashに置く重み

Ternary Bonsai、LocalLLaMAはcompression claimの比較軸を疑った

Related Articles

Show HNで注目を集めた1-Bit Bonsai、超低メモリLLMはedge推論をどこまで変えるか
LLM Hacker News Apr 1, 2026 1 min read

8ドルのESP32で28.9M LLM、鍵はflashに置く重み

Ternary Bonsai、LocalLLaMAはcompression claimの比較軸を疑った
LLM Reddit Apr 17, 2026 1 min read