Chrome 안의 작은 Gemini Nano, LocalLLaMA가 파고든 실행 조건

Chrome에 들어 있는 온디바이스 모델을 확장 프로그램으로 바로 써보려는 시도가 LocalLLaMA에서 관심을 모았다. 게시자는 Gemini Nano로 알려진 작은 모델을 Chrome 안에서 호출하고, GPU 설정이나 llama.cpp, vLLM 없이 로컬 요약이나 맞춤법 확인 같은 작업에 쓸 수 있다고 설명했다.

흥미로운 점은 설치 장벽이다. 별도 런타임을 깔고 GGUF를 내려받아 실행 옵션을 맞추는 대신, Chrome의 내장 AI API를 이용해 브라우저 안에서 모델을 호출한다. 게시자는 16GB RAM과 디스크 공간 정도를 언급했고, 자신의 노트북에서 대략 초당 20토큰 수준의 체감을 전했다.

댓글은 바로 조건을 정리했다. “GPU 없이”라는 표현은 조심해야 한다는 지적이 나왔다. Chrome의 내장 AI API는 가능한 경우 WebGPU를 쓰며, 현대 노트북의 내장 GPU도 여기에 포함된다. 순수 CPU 경로라면 속도가 크게 떨어질 수 있다. 또 Gemini Nano와 Gemma를 같은 모델로 보면 안 된다는 정정도 이어졌다.

이 반응이 중요한 이유는 로컬 LLM의 대중화가 성능보다 배포 경로에서 먼저 일어날 수 있기 때문이다. 브라우저가 모델 런타임과 배포 채널을 함께 제공하면, 사용자는 복잡한 추론 스택을 몰라도 작은 작업을 로컬에서 처리할 수 있다.

동시에 제약도 뚜렷하다. 모델 형식은 GGUF처럼 자유롭게 교체할 수 있는 방식이 아니고, 세션 토큰 한도와 API 접근 조건도 Chrome이 정한다. LocalLLaMA의 논점은 그래서 “완전한 오픈 로컬 추론”보다, 브라우저가 로컬 AI의 가장 넓은 진입로가 될 수 있느냐에 가깝다.

Chrome 안의 작은 Gemini Nano, LocalLLaMA가 파고든 실행 조건

Related Articles

GLM5.2 집에서 돌리기, LocalLLaMA가 본 진짜 비용은 GPU 숫자

Qwen 3.5 0.8B, WebGPU로 브라우저에서 로컬 실행 성공

브라우저에서 290MB 1-bit LLM, LocalLLaMA의 흥분과 현실 체크

Related Articles

GLM5.2 집에서 돌리기, LocalLLaMA가 본 진짜 비용은 GPU 숫자
5개의 RTX PRO 6000과 5090까지 동원한 실험은 로컬 LLM의 낭만보다 전력, VRAM, 예산의 현실을 더 선명하게 보여줬다.

Qwen 3.5 0.8B, WebGPU로 브라우저에서 로컬 실행 성공
LLM Reddit Mar 3, 2026 1 min read

브라우저에서 290MB 1-bit LLM, LocalLLaMA의 흥분과 현실 체크
LLM Reddit Apr 16, 2026 1 min read