브라우저에서 직접 실행되는 LLM: WebGPU 기반 Chrome 확장 프로그램

완전한 로컬 LLM 추론

개발자 psgganesh는 Chrome 브라우저에서 직접 LLM을 실행하는 세계 최초의 확장 프로그램 noaibills.app을 공개했습니다. WebGPU 데모는 많지만, 이것은 사람들이 실제로 일상적으로 사용할 수 있도록 제품화된 솔루션입니다.

이 확장 프로그램은 Llama 3.2, DeepSeek-R1, Qwen3, Mistral, Gemma, Phi, SmolLM2 등 다양한 모델을 지원하며, 3가지 추론 백엔드를 제공합니다:

모델은 IndexedDB에 캐시되며 오프라인에서도 작동합니다. 대화는 로컬에 저장되고, 언제든지 내보내거나 삭제할 수 있습니다.

이 도구는 GPT-4를 대체하려는 것이 아닙니다. 대신 80%의 작업—초안 작성, 요약, 간단한 코딩 질문—에 대해 3B 파라미터 모델로 충분한 경우를 목표로 합니다.

특히 다음과 같은 조직에 적합합니다:

Ollama도, 서버도, 구독료도 필요 없습니다. 인터넷 연결 없이 완전히 로컬에서 실행되며 API 비용도 없습니다. "모든 문제가 큰 망치를 필요로 하는 것은 아니다"라는 개발자의 철학이 잘 담긴 프로젝트입니다.

실시간 지식이나 복잡한 추론이 필요하다면 클라우드 모델을 사용하면 됩니다. 이 도구는 다른 니치를 제공합니다—완전한 프라이버시가 보장되는 로컬 텍스트 작업을 위한 솔루션입니다.