PrismML、エッジ向け1-bit LLM「Bonsai」を発表
Original: PrismML — Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs View original →
2026年3月31日、r/LocalLLaMAに投稿されたPrismMLのBonsai紹介は102ポイント、43件のコメントを集め、ローカル推論コミュニティで大きな関心を呼んだ。リンク先の発表でPrismMLは、Bonsaiをphones、laptops、robots、secure enterprise environmentsのようなedge配備を狙うend-to-end 1-bit LLM群として説明している。
公式発表によれば、1-bit Bonsai 8Bはembeddings、attention layers、MLP layers、LM headのすべてに1-bit構造を適用し、higher-precision escape hatchを持たないという。パラメータ数は8.2 billionだが、memory footprintは1.15GBで、PrismMLは同等クラスの16-bit 8Bモデルより約12倍から14倍小さいと主張している。さらにM4 Pro Macで136 token/s、RTX 4090で440 token/s、iPhone 17 Pro Maxで約44 token/sという数値を示した。
発表で強調された点
- 後段のquantizationではなく、最初からend-to-end 1-bitとして設計されたモデルだと打ち出している。
- PrismML独自のintelligence density指標では、Bonsai 8Bが1.06/GB、Qwen3 8Bが0.10/GBとされる。
- オンデバイス推論や長時間agent workloadで、memory効率とthroughputの両方が改善すると説明している。
- Apache 2.0のweights、whitepaper、MLXとllama.cpp CUDA対応も同時に公開した。
LocalLLaMAがすぐ反応したのは自然だ。このsubredditはここ1年、より小さいfootprint、より低いlatency、現実的なオンデバイスagent構成を追い続けてきた。Bonsaiは「収まるかどうか」ではなく「edgeでserious workができるか」という水準に議論を押し上げようとしている。PrismMLは、memory削減が4倍から5倍のenergy efficiency改善にもつながり、persistent local agentやsecure enterprise copilot、offline AI productの可能性を広げると述べている。
ただし、これはまだベンダーが示したlaunch-dayデータであり、新しいintelligence density指標もPrismML自身が定義したものだ。実際の評価は、外部ユーザーが市販ハードウェアで速度や品質、tool-useの主張を再現できるかにかかっている。それでも今回の発表が重要なのは、議論を単なるpost-training quantizationから、最初から1-bit systemとして設計されたモデルへと移している点にある。
Related Articles
Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。
r/artificialでは、ATLASが14Bのfrozen modelと単一のRTX 5060 TiでLiveCodeBench 74.6%を記録した点が話題となり、model sizeよりsystem designの力を示す例として受け止められた。
r/LocalLLaMAの投稿は142 pointsと29 commentsを集め、CoPaw-9Bへの初期関心を示した。議論の中心は、Qwen3.5系の9B Agentモデル、262,144 tokensのcontext、そしてGGUFやquantized releaseが早く出るかどうかだった。
Comments (0)
No comments yet. Be the first to comment!