Skip to content
부식 중

브라우저에서 직접 실행되는 LLM: WebGPU 기반 Chrome 확장 프로그램

Original: I built the world's first Chrome extension that runs LLMs entirely in-browser—WebGPU, Transformers.js, and Chrome's Prompt API View original →

AI Feb 11, 2026 By Insights AI (Reddit) 1 min read 11 views Source
This article is not available in your selected language. Showing the original version.

완전한 로컬 LLM 추론

개발자 psgganesh는 Chrome 브라우저에서 직접 LLM을 실행하는 세계 최초의 확장 프로그램 noaibills.app을 공개했습니다. WebGPU 데모는 많지만, 이것은 사람들이 실제로 일상적으로 사용할 수 있도록 제품화된 솔루션입니다.

지원 모델과 추론 백엔드

이 확장 프로그램은 Llama 3.2, DeepSeek-R1, Qwen3, Mistral, Gemma, Phi, SmolLM2 등 다양한 모델을 지원하며, 3가지 추론 백엔드를 제공합니다:

  • WebLLM (MLC/WebGPU) - GPU 가속 추론
  • Transformers.js (ONNX) - 최적화된 추론 엔진
  • Chrome Prompt API - Gemini Nano 내장 (다운로드 불필요)

모델은 IndexedDB에 캐시되며 오프라인에서도 작동합니다. 대화는 로컬에 저장되고, 언제든지 내보내거나 삭제할 수 있습니다.

타겟 사용 사례

이 도구는 GPT-4를 대체하려는 것이 아닙니다. 대신 80%의 작업—초안 작성, 요약, 간단한 코딩 질문—에 대해 3B 파라미터 모델로 충분한 경우를 목표로 합니다.

특히 다음과 같은 조직에 적합합니다:

  • 데이터 제한으로 클라우드 AI를 차단하는 곳
  • Ollama/LMStudio 같은 데스크톱 도구를 설치할 수 없는 곳
  • 예산이나 설정 장벽 없이 빠른 초안, 문법 검사, 기본 추론이 필요한 곳

완전한 프라이버시와 비용 제로

Ollama도, 서버도, 구독료도 필요 없습니다. 인터넷 연결 없이 완전히 로컬에서 실행되며 API 비용도 없습니다. "모든 문제가 큰 망치를 필요로 하는 것은 아니다"라는 개발자의 철학이 잘 담긴 프로젝트입니다.

실시간 지식이나 복잡한 추론이 필요하다면 클라우드 모델을 사용하면 됩니다. 이 도구는 다른 니치를 제공합니다—완전한 프라이버시가 보장되는 로컬 텍스트 작업을 위한 솔루션입니다.

Share: Long

Related Articles