ブラウザで290MBの1-bit LLM、LocalLLaMAは驚きつつ性能を見た
Original: 1-bit Bonsai 1.7B (290MB in size) running locally in your browser on WebGPU View original →
LocalLLaMA postには、local inferenceコミュニティらしい反応が集まった。半分は驚き、半分はbenchmark要求だった。投稿は、約290MBの1-bit Bonsai 1.7B modelがWebGPU経由でbrowser内にlocal実行されるHugging Face Space demoを示していた。小さなmodelが普通のbrowser tabで動くという絵は、quantization論文を追っていない人にもすぐ伝わる。
だからtop commentは、まず分析より感情に近かった。あるユーザーは、10年前にAI researchをしていた頃にこれを見せられたら信じにくかっただろう、という趣旨で反応した。すぐ試したいという声も多かった。Browser-based inferenceには独特の引力がある。server accountも、API meterも、面倒なlocal installもなく、WebGPUが届く範囲なら巨大なGPU workstationも要らない。教育、offline experiment、privacy-sensitive prototype、短いdemoにはかなり魅力的な形だ。
ただしLocalLLaMAは感心だけで終わらなかった。複数のユーザーがtokens-per-secondの数字を求め、llama.cppのCPU、Metal、Vulkan、CUDA pathのsupportを比べた。大きいBonsai variantを試した人は品質についてかなり率直だった。Threadには自信満々に間違う回答例もあり、8B Bonsaiでもgeneral taskにはhallucinationが多すぎるのでは、という懸念も出た。この疑いは大事だ。290MB browser LLMは印象的なengineeringだが、size reductionだけではusefulnessの測定にはならない。
このpostが面白いのは、local AIが二つの方向へ同時に進んでいることを見せる点だ。一方ではmodel compressionとWebGPU runtimeの進歩に驚き、もう一方ではlocal modelにもtask-specific evaluation、latency number、quality checkが必要だと求める。Bonsaiの周りに生まれた熱量は、その両方が同時に出たからだ。
Related Articles
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
Comments (0)
No comments yet. Be the first to comment!