Qwen 3.5 0.8B, WebGPU로 브라우저에서 로컬 실행 성공
Original: Running Qwen 3.5 0.8B locally in the browser on WebGPU w/ Transformers.js View original →
브라우저만으로 LLM을 돌리다
Qwen 3.5 0.8B 모델을 서버 인프라 없이 순수히 브라우저에서 실행하는 데모가 r/LocalLLaMA 커뮤니티에서 440점을 획득하며 큰 관심을 끌었습니다. 이 데모는 HuggingFace의 Transformers.js 라이브러리와 WebGPU API를 결합해 사용자의 GPU를 직접 활용합니다.
작동 방식
Transformers.js는 브라우저에서 Transformer 기반 모델을 실행할 수 있게 해주는 JavaScript 라이브러리입니다. WebGPU는 최신 브라우저에서 GPU에 직접 접근할 수 있는 Web API로, 2026년 현재 전 세계 브라우저 트래픽의 약 85~90%에서 지원됩니다(Chrome, Edge, Safari). 이 두 기술의 결합으로 소형 LLM을 클라이언트 측에서 완전히 실행하는 것이 가능해졌습니다.
HuggingFace의 transformers.js-examples 저장소에는 qwen3-webgpu 예제가 포함되어 있으며, 2026년 2월 출시된 Transformers.js v4는 ONNX Runtime 통합을 심화하여 지원 모델에서 3~10배의 속도 향상을 제공합니다.
브라우저 AI의 의미
이 기술의 의미는 단순한 데모를 넘어섭니다. 서버 없는 AI 배포는 프라이버시 보호(데이터가 기기를 떠나지 않음), 서버 비용 제로, 오프라인 작동 가능한 AI 애플리케이션 개발을 가능하게 합니다. Qwen 3.5 0.8B의 262K 컨텍스트와 멀티모달 기능은 이전 세대 0.8B 모델과는 비교할 수 없을 만큼 실용적인 브라우저 AI 경험을 제공합니다.
Related Articles
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
반응은 “브라우저만 있으면 로컬 LLM”이라는 편의성과 WebGPU·모델 정체성에 대한 정정 사이에서 갈렸다.