#quantization

RSSフィード

LLM X/Twitter Jul 19, 2026 1 min read

Bonsaiが27Bモデルを3.9GB化、スマホ上のローカル推論を現実路線へ

27Bモデルがスマホで動くなら、非公開データをクラウドへ出さないAI利用の幅が広がる。RunAnywhereはBonsaiが1-bit重みで3.9GBに収まり、自社評価で全精度品質の約90%を保つと述べた。

#on-device-ai #quantization #bonsai

LLM Reddit Apr 29, 2026 1 min read

Qwen 3.6 27B量子化比較、LocalLLaMAはQ4_K_M推しでも検証方法で議論

LocalLLaMAがまず歓迎したのは、数字そのものより「こういう比較がもっと必要だ」という空気だった。ただしQ4_K_MがQ8_0より実用的に見える結論が出ると、すぐに誤差範囲やKVキャッシュ設定を問う検証モードに入った。

#qwen #gguf #quantization

LLM Reddit Apr 27, 2026 1 min read

Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質

LocalLLaMAが食いついたのは派手な速度自慢だけではない。Qwen3.6-27B-INT4をRTX 5090一枚で105-108 tps、しかも256k native contextで回したという投稿に対し、議論はすぐに「その速さで品質は持つのか」に集まった。

#qwen #vllm #rtx-5090

LLM Reddit Apr 26, 2026 1 min read

KV cache量子化でGemma 4が先に崩れる理由　LocalLLaMAが注目

LocalLLaMAがこの投稿に反応したのは、q8_0 KV cacheはだいたい安全という前提が崩れたからだ。Gemma 4はQwen 3.6よりずっと早く劣化し、議論はすぐにSWA cacheと長文contextの影響へ向かった。

#kv-cache #quantization #gemma-4

LLM Reddit Apr 25, 2026 1 min read

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。

#qwen #vllm #rtx-5090

LLM Reddit Apr 25, 2026 1 min read

「q8_0ならほぼ無損失」を崩したKVキャッシュ検証、LocalLLaMAの反応

LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。

#kv-cache #gemma #qwen

LLM X/Twitter Apr 23, 2026 1 min read

Cohere W4A8、vLLM Hopperでfirst-token latency 58%短縮を主張

重要なのは、inference costがinfrastructure問題だけでなくproduct constraintになっている点だ。CohereはvLLMのW4A8 pathがHopper上でW4A16比TTFT最大58%、TPOT最大45%高速だと述べた。

#cohere #vllm #inference

LLM Reddit Apr 20, 2026 1 min read

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。

#qwen #local-llm #coding-agents

LLM X/Twitter Apr 16, 2026 1 min read

Ternary Bonsai、1.58-bit open 8B model familyを1.75GBまで縮めた

PrismMLは、open modelを小さくする鍵がarchitectureだけでなくweight formatにもあると示した。Ternary Bonsaiは1.58 bitsで8B、4B、1.7Bを出し、8B variantは1.75GBとされている。

#ternary-bonsai #open-models #huggingface

LLM Reddit Apr 16, 2026 1 min read

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。

#qwen #gguf #quantization

LLM Reddit Apr 16, 2026 1 min read

ブラウザで290MBの1-bit LLM、LocalLLaMAは驚きつつ性能を見た

LocalLLaMAが反応したのは、demoの分かりやすさだった。約290MBの1.7B Bonsai modelがWebGPUでbrowser内に走る。同じthreadはすぐにtokens per second、hallucination、llama.cpp support、そして1-bit modelがnarrow task以外で使えるのかを確認しにいった。

#local-llm #webgpu #quantization

LLM X/Twitter Apr 14, 2026 1 min read

量子化Gemma 4 31B、メモリ半分でtokens/secをほぼ2倍へ引き上げつつ99%精度を維持

Quantizationはaccuracyが崩れると一気に価値を失う。Red Hat AIはquantized Gemma 4 31Bがメモリを半分に抑えつつtokens/secをほぼ2倍にし、baseline accuracyの99%+を維持すると書いた。

#gemma-4 #quantization #vllm