LocalLLaMAがまず歓迎したのは、数字そのものより「こういう比較がもっと必要だ」という空気だった。ただしQ4_K_MがQ8_0より実用的に見える結論が出ると、すぐに誤差範囲やKVキャッシュ設定を問う検証モードに入った。
#quantization
RSS FeedLocalLLaMAが食いついたのは派手な速度自慢だけではない。Qwen3.6-27B-INT4をRTX 5090一枚で105-108 tps、しかも256k native contextで回したという投稿に対し、議論はすぐに「その速さで品質は持つのか」に集まった。
LocalLLaMAがこの投稿に反応したのは、q8_0 KV cacheはだいたい安全という前提が崩れたからだ。Gemma 4はQwen 3.6よりずっと早く劣化し、議論はすぐにSWA cacheと長文contextの影響へ向かった。
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。
重要なのは、inference costがinfrastructure問題だけでなくproduct constraintになっている点だ。CohereはvLLMのW4A8 pathがHopper上でW4A16比TTFT最大58%、TPOT最大45%高速だと述べた。
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
PrismMLは、open modelを小さくする鍵がarchitectureだけでなくweight formatにもあると示した。Ternary Bonsaiは1.58 bitsで8B、4B、1.7Bを出し、8B variantは1.75GBとされている。
LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。
LocalLLaMAが反応したのは、demoの分かりやすさだった。約290MBの1.7B Bonsai modelがWebGPUでbrowser内に走る。同じthreadはすぐにtokens per second、hallucination、llama.cpp support、そして1-bit modelがnarrow task以外で使えるのかを確認しにいった。
Quantizationはaccuracyが崩れると一気に価値を失う。Red Hat AIはquantized Gemma 4 31Bがメモリを半分に抑えつつtokens/secをほぼ2倍にし、baseline accuracyの99%+を維持すると書いた。
r/LocalLLaMAの反応は、PrismML Bonsai の発表が単なる compression headline 以上に受け止められていることを示している。会社の end-to-end 1-bit 設計の主張と、実際の利用者が感じた使い勝手の改善が同時に語られている。