PrismML、エッジ向け1-bit LLM「Bonsai」を発表

2026年3月31日、r/LocalLLaMAに投稿されたPrismMLのBonsai紹介は102ポイント、43件のコメントを集め、ローカル推論コミュニティで大きな関心を呼んだ。リンク先の発表でPrismMLは、Bonsaiをphones、laptops、robots、secure enterprise environmentsのようなedge配備を狙うend-to-end 1-bit LLM群として説明している。

公式発表によれば、1-bit Bonsai 8Bはembeddings、attention layers、MLP layers、LM headのすべてに1-bit構造を適用し、higher-precision escape hatchを持たないという。パラメータ数は8.2 billionだが、memory footprintは1.15GBで、PrismMLは同等クラスの16-bit 8Bモデルより約12倍から14倍小さいと主張している。さらにM4 Pro Macで136 token/s、RTX 4090で440 token/s、iPhone 17 Pro Maxで約44 token/sという数値を示した。

発表で強調された点

後段のquantizationではなく、最初からend-to-end 1-bitとして設計されたモデルだと打ち出している。
PrismML独自のintelligence density指標では、Bonsai 8Bが1.06/GB、Qwen3 8Bが0.10/GBとされる。
オンデバイス推論や長時間agent workloadで、memory効率とthroughputの両方が改善すると説明している。
Apache 2.0のweights、whitepaper、MLXとllama.cpp CUDA対応も同時に公開した。

LocalLLaMAがすぐ反応したのは自然だ。このsubredditはここ1年、より小さいfootprint、より低いlatency、現実的なオンデバイスagent構成を追い続けてきた。Bonsaiは「収まるかどうか」ではなく「edgeでserious workができるか」という水準に議論を押し上げようとしている。PrismMLは、memory削減が4倍から5倍のenergy efficiency改善にもつながり、persistent local agentやsecure enterprise copilot、offline AI productの可能性を広げると述べている。

ただし、これはまだベンダーが示したlaunch-dayデータであり、新しいintelligence density指標もPrismML自身が定義したものだ。実際の評価は、外部ユーザーが市販ハードウェアで速度や品質、tool-useの主張を再現できるかにかかっている。それでも今回の発表が重要なのは、議論を単なるpost-training quantizationから、最初から1-bit systemとして設計されたモデルへと移している点にある。

コミュニティソース: Reddit議論。一次ソース: PrismML発表。

PrismML、エッジ向け1-bit LLM「Bonsai」を発表

発表で強調された点

Related Articles

Hacker Newsが注目した ATLAS、local coding agent の採算を揺らす

r/artificialで話題のATLAS、500ドルGPUでLiveCodeBench 74.6%

r/LocalLLaMA、CoPaw-9B公開に反応小型Agentモデルへの期待とquantization需要

Comments (0)

Leave a Comment

Related Articles

Hacker Newsが注目した ATLAS、local coding agent の採算を揺らす

r/artificialで話題のATLAS、500ドルGPUでLiveCodeBench 74.6%
r/artificialでは、ATLASが14Bのfrozen modelと単一のRTX 5060 TiでLiveCodeBench 74.6%を記録した点が話題となり、model sizeよりsystem designの力を示す例として受け止められた。

r/LocalLLaMA、CoPaw-9B公開に反応小型Agentモデルへの期待とquantization需要
r/LocalLLaMAの投稿は142 pointsと29 commentsを集め、CoPaw-9Bへの初期関心を示した。議論の中心は、Qwen3.5系の9B Agentモデル、262,144 tokensのcontext、そしてGGUFやquantized releaseが早く出るかどうかだった。

発表で強調された点

Related Articles

Hacker Newsが注目した ATLAS、local coding agent の採算を揺らす

r/artificialで話題のATLAS、500ドルGPUでLiveCodeBench 74.6%

r/LocalLLaMA、CoPaw-9B公開に反応 小型Agentモデルへの期待とquantization需要

Comments (0)

Leave a Comment

r/LocalLLaMA、CoPaw-9B公開に反応小型Agentモデルへの期待とquantization需要