브라우저에서 직접 실행되는 LLM: WebGPU 기반 Chrome 확장 프로그램
Original: I built the world's first Chrome extension that runs LLMs entirely in-browser—WebGPU, Transformers.js, and Chrome's Prompt API View original →
완전한 로컬 LLM 추론
개발자 psgganesh는 Chrome 브라우저에서 직접 LLM을 실행하는 세계 최초의 확장 프로그램 noaibills.app을 공개했습니다. WebGPU 데모는 많지만, 이것은 사람들이 실제로 일상적으로 사용할 수 있도록 제품화된 솔루션입니다.
지원 모델과 추론 백엔드
이 확장 프로그램은 Llama 3.2, DeepSeek-R1, Qwen3, Mistral, Gemma, Phi, SmolLM2 등 다양한 모델을 지원하며, 3가지 추론 백엔드를 제공합니다:
- WebLLM (MLC/WebGPU) - GPU 가속 추론
- Transformers.js (ONNX) - 최적화된 추론 엔진
- Chrome Prompt API - Gemini Nano 내장 (다운로드 불필요)
모델은 IndexedDB에 캐시되며 오프라인에서도 작동합니다. 대화는 로컬에 저장되고, 언제든지 내보내거나 삭제할 수 있습니다.
타겟 사용 사례
이 도구는 GPT-4를 대체하려는 것이 아닙니다. 대신 80%의 작업—초안 작성, 요약, 간단한 코딩 질문—에 대해 3B 파라미터 모델로 충분한 경우를 목표로 합니다.
특히 다음과 같은 조직에 적합합니다:
- 데이터 제한으로 클라우드 AI를 차단하는 곳
- Ollama/LMStudio 같은 데스크톱 도구를 설치할 수 없는 곳
- 예산이나 설정 장벽 없이 빠른 초안, 문법 검사, 기본 추론이 필요한 곳
완전한 프라이버시와 비용 제로
Ollama도, 서버도, 구독료도 필요 없습니다. 인터넷 연결 없이 완전히 로컬에서 실행되며 API 비용도 없습니다. "모든 문제가 큰 망치를 필요로 하는 것은 아니다"라는 개발자의 철학이 잘 담긴 프로젝트입니다.
실시간 지식이나 복잡한 추론이 필요하다면 클라우드 모델을 사용하면 됩니다. 이 도구는 다른 니치를 제공합니다—완전한 프라이버시가 보장되는 로컬 텍스트 작업을 위한 솔루션입니다.
Related Articles
A Massachusetts privacy bill passed the House 146-0 and would ban the sale of precise location data. Because it covers companies processing data from more than 100,000 consumers, the pressure lands directly on ad tech, mobile apps, and data brokers.
A post in r/artificial amplified an Ars Technica report on LLM-driven deanonymization research, including results up to 68% recall and 90% precision across multiple social datasets.
Anthropic has introduced Natural Language Autoencoders (NLAs), a new interpretability technique that trains Claude to translate its own internal activations into human-readable text—enabling safety audits that can uncover hidden model motivations.