Qwen 3.5 0.8B, WebGPU로 브라우저에서 로컬 실행 성공

브라우저만으로 LLM을 돌리다

Qwen 3.5 0.8B 모델을 서버 인프라 없이 순수히 브라우저에서 실행하는 데모가 r/LocalLLaMA 커뮤니티에서 440점을 획득하며 큰 관심을 끌었습니다. 이 데모는 HuggingFace의 Transformers.js 라이브러리와 WebGPU API를 결합해 사용자의 GPU를 직접 활용합니다.

작동 방식

Transformers.js는 브라우저에서 Transformer 기반 모델을 실행할 수 있게 해주는 JavaScript 라이브러리입니다. WebGPU는 최신 브라우저에서 GPU에 직접 접근할 수 있는 Web API로, 2026년 현재 전 세계 브라우저 트래픽의 약 85~90%에서 지원됩니다(Chrome, Edge, Safari). 이 두 기술의 결합으로 소형 LLM을 클라이언트 측에서 완전히 실행하는 것이 가능해졌습니다.

HuggingFace의 transformers.js-examples 저장소에는 qwen3-webgpu 예제가 포함되어 있으며, 2026년 2월 출시된 Transformers.js v4는 ONNX Runtime 통합을 심화하여 지원 모델에서 3~10배의 속도 향상을 제공합니다.

브라우저 AI의 의미

이 기술의 의미는 단순한 데모를 넘어섭니다. 서버 없는 AI 배포는 프라이버시 보호(데이터가 기기를 떠나지 않음), 서버 비용 제로, 오프라인 작동 가능한 AI 애플리케이션 개발을 가능하게 합니다. Qwen 3.5 0.8B의 262K 컨텍스트와 멀티모달 기능은 이전 세대 0.8B 모델과는 비교할 수 없을 만큼 실용적인 브라우저 AI 경험을 제공합니다.