브라우저에서 직접 실행되는 LLM: WebGPU 기반 Chrome 확장 프로그램
Original: I built the world's first Chrome extension that runs LLMs entirely in-browser—WebGPU, Transformers.js, and Chrome's Prompt API View original →
완전한 로컬 LLM 추론
개발자 psgganesh는 Chrome 브라우저에서 직접 LLM을 실행하는 세계 최초의 확장 프로그램 noaibills.app을 공개했습니다. WebGPU 데모는 많지만, 이것은 사람들이 실제로 일상적으로 사용할 수 있도록 제품화된 솔루션입니다.
지원 모델과 추론 백엔드
이 확장 프로그램은 Llama 3.2, DeepSeek-R1, Qwen3, Mistral, Gemma, Phi, SmolLM2 등 다양한 모델을 지원하며, 3가지 추론 백엔드를 제공합니다:
- WebLLM (MLC/WebGPU) - GPU 가속 추론
- Transformers.js (ONNX) - 최적화된 추론 엔진
- Chrome Prompt API - Gemini Nano 내장 (다운로드 불필요)
모델은 IndexedDB에 캐시되며 오프라인에서도 작동합니다. 대화는 로컬에 저장되고, 언제든지 내보내거나 삭제할 수 있습니다.
타겟 사용 사례
이 도구는 GPT-4를 대체하려는 것이 아닙니다. 대신 80%의 작업—초안 작성, 요약, 간단한 코딩 질문—에 대해 3B 파라미터 모델로 충분한 경우를 목표로 합니다.
특히 다음과 같은 조직에 적합합니다:
- 데이터 제한으로 클라우드 AI를 차단하는 곳
- Ollama/LMStudio 같은 데스크톱 도구를 설치할 수 없는 곳
- 예산이나 설정 장벽 없이 빠른 초안, 문법 검사, 기본 추론이 필요한 곳
완전한 프라이버시와 비용 제로
Ollama도, 서버도, 구독료도 필요 없습니다. 인터넷 연결 없이 완전히 로컬에서 실행되며 API 비용도 없습니다. "모든 문제가 큰 망치를 필요로 하는 것은 아니다"라는 개발자의 철학이 잘 담긴 프로젝트입니다.
실시간 지식이나 복잡한 추론이 필요하다면 클라우드 모델을 사용하면 됩니다. 이 도구는 다른 니치를 제공합니다—완전한 프라이버시가 보장되는 로컬 텍스트 작업을 위한 솔루션입니다.
Related Articles
r/artificial에서 공유된 Ars Technica 보도는 LLM 기반 비식별 해제 연구를 조명했다. 논문은 최대 68% recall, 최대 90% precision을 보고하며, 기존 고전적 deanonymization 대비 성능 우위를 주장한다.
연구자가 LLM의 hidden state를 분석하여 6개 오픈소스 모델(7B-9B)의 행동 패턴을 7가지 축으로 측정했다. DeepSeek은 '열정적인 설명가', Llama는 '신중한 제너럴리스트', Yi는 '조용한 자신감'으로 각 모델이 고유한 행동 지문을 가진 것으로 나타났다.
Anthropic는 powerful AI가 사회에 던질 과제를 다루는 공익 조직 The Anthropic Institute를 출범시켰다. 회사는 이 조직이 technical·economic·social science 관점을 결합해 public conversation을 넓히는 역할을 맡는다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!