Qwen 3.5 0.8B、WebGPUとTransformers.jsによるブラウザ内ローカル実行に成功
Original: Running Qwen 3.5 0.8B locally in the browser on WebGPU w/ Transformers.js View original →
サーバーなしでLLMを動かす
Qwen 3.5 0.8Bモデルをサーバーなしで完全にブラウザ上で実行するデモが、r/LocalLLaMAで440アップボートを獲得して大きな注目を集めました。このデモはHuggingFaceのTransformers.jsライブラリとWebGPU APIを組み合わせ、ユーザーのGPUをブラウザから直接活用します。
仕組み
Transformers.jsはブラウザでTransformerベースのモデルを実行できるJavaScriptライブラリです。WebGPUはブラウザからGPUハードウェアに直接アクセスできる最新のWeb APIで、2026年現在、世界のブラウザトラフィックの約85〜90%(Chrome、Edge、Safari)でサポートされています。この二つの技術の組み合わせにより、サーバーインフラなしでの小型LLM実行が可能になりました。
HuggingFaceのTransformers.js-examplesリポジトリにはqwen3-webgpuの例が含まれており、2026年2月にリリースされたTransformers.js v4はONNX Runtimeの統合を深め、サポートモデルで3〜10倍の速度向上を実現しています。
ブラウザAIの意義
Qwen 3.5の0.8Bモデルは262Kコンテキストとマルチモーダルサポートを持ちながらブラウザに読み込める重量を維持しており、以前の世代の0.8B級モデルとは比較にならない実用的なブラウザAI体験を提供します。ブラウザネイティブなAI展開は、プライバシー重視のアプリケーション(データがデバイスから出ない)、ゼロサーバーコスト、そしてオフラインAI機能を可能にします。翻訳拡張機能、文書分析、コーディングアシスタントなど、外部サーバーにデータを送らずに動作する様々なユースケースが考えられます。
Related Articles
反応は「ブラウザだけでローカルLLM」という手軽さと、WebGPU、モデルの正体、制限条件への補足に分かれた。
LocalLLaMAで話題になったポストで、Qwen3.6 35B A3BがCodexとpiエージェントを組み合わせたスキルベースプロンプティングにより、VPS管理やPDF変換などの複雑なワークフローを自動化した体験が共有されました。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。