PrismML、エッジ向け1-bit LLM「Bonsai」を発表

Original: PrismML — Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs View original →

Read in other languages: 한국어English
LLM Apr 1, 2026 By Insights AI (Reddit) 1 min read Source

2026年3月31日、r/LocalLLaMAに投稿されたPrismMLのBonsai紹介は102ポイント、43件のコメントを集め、ローカル推論コミュニティで大きな関心を呼んだ。リンク先の発表でPrismMLは、Bonsaiをphones、laptops、robots、secure enterprise environmentsのようなedge配備を狙うend-to-end 1-bit LLM群として説明している。

公式発表によれば、1-bit Bonsai 8Bはembeddings、attention layers、MLP layers、LM headのすべてに1-bit構造を適用し、higher-precision escape hatchを持たないという。パラメータ数は8.2 billionだが、memory footprintは1.15GBで、PrismMLは同等クラスの16-bit 8Bモデルより約12倍から14倍小さいと主張している。さらにM4 Pro Macで136 token/s、RTX 4090で440 token/s、iPhone 17 Pro Maxで約44 token/sという数値を示した。

発表で強調された点

  • 後段のquantizationではなく、最初からend-to-end 1-bitとして設計されたモデルだと打ち出している。
  • PrismML独自のintelligence density指標では、Bonsai 8Bが1.06/GB、Qwen3 8Bが0.10/GBとされる。
  • オンデバイス推論や長時間agent workloadで、memory効率とthroughputの両方が改善すると説明している。
  • Apache 2.0のweights、whitepaper、MLXとllama.cpp CUDA対応も同時に公開した。

LocalLLaMAがすぐ反応したのは自然だ。このsubredditはここ1年、より小さいfootprint、より低いlatency、現実的なオンデバイスagent構成を追い続けてきた。Bonsaiは「収まるかどうか」ではなく「edgeでserious workができるか」という水準に議論を押し上げようとしている。PrismMLは、memory削減が4倍から5倍のenergy efficiency改善にもつながり、persistent local agentやsecure enterprise copilot、offline AI productの可能性を広げると述べている。

ただし、これはまだベンダーが示したlaunch-dayデータであり、新しいintelligence density指標もPrismML自身が定義したものだ。実際の評価は、外部ユーザーが市販ハードウェアで速度や品質、tool-useの主張を再現できるかにかかっている。それでも今回の発表が重要なのは、議論を単なるpost-training quantizationから、最初から1-bit systemとして設計されたモデルへと移している点にある。

コミュニティソース: Reddit議論。一次ソース: PrismML発表

Share: Long

Related Articles

LLM Hacker News 3d ago 1 min read

Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.