Qwen 3.5 0.8B、WebGPUとTransformers.jsによるブラウザ内ローカル実行に成功
Original: Running Qwen 3.5 0.8B locally in the browser on WebGPU w/ Transformers.js View original →
サーバーなしでLLMを動かす
Qwen 3.5 0.8Bモデルをサーバーなしで完全にブラウザ上で実行するデモが、r/LocalLLaMAで440アップボートを獲得して大きな注目を集めました。このデモはHuggingFaceのTransformers.jsライブラリとWebGPU APIを組み合わせ、ユーザーのGPUをブラウザから直接活用します。
仕組み
Transformers.jsはブラウザでTransformerベースのモデルを実行できるJavaScriptライブラリです。WebGPUはブラウザからGPUハードウェアに直接アクセスできる最新のWeb APIで、2026年現在、世界のブラウザトラフィックの約85〜90%(Chrome、Edge、Safari)でサポートされています。この二つの技術の組み合わせにより、サーバーインフラなしでの小型LLM実行が可能になりました。
HuggingFaceのTransformers.js-examplesリポジトリにはqwen3-webgpuの例が含まれており、2026年2月にリリースされたTransformers.js v4はONNX Runtimeの統合を深め、サポートモデルで3〜10倍の速度向上を実現しています。
ブラウザAIの意義
Qwen 3.5の0.8Bモデルは262Kコンテキストとマルチモーダルサポートを持ちながらブラウザに読み込める重量を維持しており、以前の世代の0.8B級モデルとは比較にならない実用的なブラウザAI体験を提供します。ブラウザネイティブなAI展開は、プライバシー重視のアプリケーション(データがデバイスから出ない)、ゼロサーバーコスト、そしてオフラインAI機能を可能にします。翻訳拡張機能、文書分析、コーディングアシスタントなど、外部サーバーにデータを送らずに動作する様々なユースケースが考えられます。
Related Articles
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。
Hacker Newsで注目されたUnslothのQwen3.5ガイドは、27Bや35B-A3Bをローカル環境で動かすためのメモリ要件、thinking制御、llama.cpp手順を実務向けにまとめている。
r/LocalLLaMAで注目を集めた投稿は、llama-swapを使ってローカルLLMの多モデル運用を整理した具体例を共有。単一バイナリ、YAML設定、systemd運用、パラメータフィルタが実務上の利点として語られた。
Comments (0)
No comments yet. Be the first to comment!