Ternary Bonsai、1.58-bit open 8B model familyを1.75GBまで縮めた

Original: Today we’re announcing Ternary Bonsai: Top intelligence at 1.58 bits View original →

Read in other languages: 한국어English
LLM Apr 16, 2026 By Insights AI (X) 1 min read 2 views Source

PrismMLの4月16日のX postは、open-model buildersに具体的なefficiency claimを示した点でmaterialだ。source tweetはTernary Bonsaiが "ternary weights {-1, 0, +1}" を使うと書き、1.58-bit language modelsのfamilyとして位置づけた。作成時刻は2026-04-16 17:39:18 UTCで、指定された48時間window内にある。 source tweetも併記する。

重要なのは数字だ。PrismMLは、modelsが16-bit counterpartsより9x小さく、Apache 2.0 licenseで8B 1.75GB、4B 0.86GB、1.7B 0.37GBの3 sizesとして出ると書いた。publicなHugging Face collectionにはTernary Bonsai collection、MLX model entries、demo collectionがあり、4月16日のupdatesが確認できる。community repliesではONNX、MLX、browser WebGPU demosも触れられているが、次に読むべきなのはmodel cardsとbenchmark detailsだ。

technical hookはternary weight formatだ。各weightをhigher-precision floating-point valueとして保存するのではなく、model familyはweightsを三つの値に制限し、trainingとkernelsでusable qualityを保とうとする。そのためsize numberはかなり攻めて見え、deployment supportはheadline benchmark imageと同じくらい重要になる。Hugging Face collectionのMLX entriesはApple Siliconをintended local pathの一つとして示す。browserとWebGPU demosが安定すればclient-side agentsにも意味が出る。independent perplexity、coding、instruction-following testsがcompressionの実用性を決める。

PrismMLはAI efficiencyを中心に置くresearch groupとして見られている。今回のpostも、local inferenceとlow-memory inferenceをより現実的にする流れに沿う。次に見るべきはreplicationである。benchmark imageとmodel cardsの結果がindependent testsでも維持されるなら、1.58-bit familyはbrowser demos、phones、private local agentsで意味を持つ。そうでなくても、extreme quantizationでreasoning qualityがどこまで残るかを測るstress testになる。

Share: Long

Related Articles

LLM Reddit 4d ago 1 min read

r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.