Qwen 3.5 0.8B、WebGPUとTransformers.jsによるブラウザ内ローカル実行に成功
Original: Running Qwen 3.5 0.8B locally in the browser on WebGPU w/ Transformers.js View original →
サーバーなしでLLMを動かす
Qwen 3.5 0.8Bモデルをサーバーなしで完全にブラウザ上で実行するデモが、r/LocalLLaMAで440アップボートを獲得して大きな注目を集めました。このデモはHuggingFaceのTransformers.jsライブラリとWebGPU APIを組み合わせ、ユーザーのGPUをブラウザから直接活用します。
仕組み
Transformers.jsはブラウザでTransformerベースのモデルを実行できるJavaScriptライブラリです。WebGPUはブラウザからGPUハードウェアに直接アクセスできる最新のWeb APIで、2026年現在、世界のブラウザトラフィックの約85〜90%(Chrome、Edge、Safari)でサポートされています。この二つの技術の組み合わせにより、サーバーインフラなしでの小型LLM実行が可能になりました。
HuggingFaceのTransformers.js-examplesリポジトリにはqwen3-webgpuの例が含まれており、2026年2月にリリースされたTransformers.js v4はONNX Runtimeの統合を深め、サポートモデルで3〜10倍の速度向上を実現しています。
ブラウザAIの意義
Qwen 3.5の0.8Bモデルは262Kコンテキストとマルチモーダルサポートを持ちながらブラウザに読み込める重量を維持しており、以前の世代の0.8B級モデルとは比較にならない実用的なブラウザAI体験を提供します。ブラウザネイティブなAI展開は、プライバシー重視のアプリケーション(データがデバイスから出ない)、ゼロサーバーコスト、そしてオフラインAI機能を可能にします。翻訳拡張機能、文書分析、コーディングアシスタントなど、外部サーバーにデータを送らずに動作する様々なユースケースが考えられます。
Related Articles
r/LocalLLaMAが900 points超まで反応した理由はscore表ではない。local coding agentがcanvas bugとwave completion issueを見つけて直したという使用感だった。
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。
Comments (0)
No comments yet. Be the first to comment!