ブラウザで290MBの1-bit LLM、LocalLLaMAは驚きつつ性能を見た

LocalLLaMA postには、local inferenceコミュニティらしい反応が集まった。半分は驚き、半分はbenchmark要求だった。投稿は、約290MBの1-bit Bonsai 1.7B modelがWebGPU経由でbrowser内にlocal実行されるHugging Face Space demoを示していた。小さなmodelが普通のbrowser tabで動くという絵は、quantization論文を追っていない人にもすぐ伝わる。

だからtop commentは、まず分析より感情に近かった。あるユーザーは、10年前にAI researchをしていた頃にこれを見せられたら信じにくかっただろう、という趣旨で反応した。すぐ試したいという声も多かった。Browser-based inferenceには独特の引力がある。server accountも、API meterも、面倒なlocal installもなく、WebGPUが届く範囲なら巨大なGPU workstationも要らない。教育、offline experiment、privacy-sensitive prototype、短いdemoにはかなり魅力的な形だ。

ただしLocalLLaMAは感心だけで終わらなかった。複数のユーザーがtokens-per-secondの数字を求め、llama.cppのCPU、Metal、Vulkan、CUDA pathのsupportを比べた。大きいBonsai variantを試した人は品質についてかなり率直だった。Threadには自信満々に間違う回答例もあり、8B Bonsaiでもgeneral taskにはhallucinationが多すぎるのでは、という懸念も出た。この疑いは大事だ。290MB browser LLMは印象的なengineeringだが、size reductionだけではusefulnessの測定にはならない。

このpostが面白いのは、local AIが二つの方向へ同時に進んでいることを見せる点だ。一方ではmodel compressionとWebGPU runtimeの進歩に驚き、もう一方ではlocal modelにもtask-specific evaluation、latency number、quality checkが必要だと求める。Bonsaiの周りに生まれた熱量は、その両方が同時に出たからだ。

LLM Reddit 4d ago 1 min read

r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話

r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。

#qwen #quantization #gguf

LLM Reddit 2d ago 1 min read

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。

#qwen #gguf #quantization

LLM Reddit 3d ago 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

ブラウザで290MBの1-bit LLM、LocalLLaMAは驚きつつ性能を見た

Related Articles

r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

Comments (0)

Leave a Comment