Chrome 안의 작은 Gemini Nano, LocalLLaMA가 파고든 실행 조건
Original: Run Chrome’s tiny Gemma4 (aka Gemini Nano) directly on PC without GPU View original →
Chrome에 들어 있는 온디바이스 모델을 확장 프로그램으로 바로 써보려는 시도가 LocalLLaMA에서 관심을 모았다. 게시자는 Gemini Nano로 알려진 작은 모델을 Chrome 안에서 호출하고, GPU 설정이나 llama.cpp, vLLM 없이 로컬 요약이나 맞춤법 확인 같은 작업에 쓸 수 있다고 설명했다.
흥미로운 점은 설치 장벽이다. 별도 런타임을 깔고 GGUF를 내려받아 실행 옵션을 맞추는 대신, Chrome의 내장 AI API를 이용해 브라우저 안에서 모델을 호출한다. 게시자는 16GB RAM과 디스크 공간 정도를 언급했고, 자신의 노트북에서 대략 초당 20토큰 수준의 체감을 전했다.
댓글은 바로 조건을 정리했다. “GPU 없이”라는 표현은 조심해야 한다는 지적이 나왔다. Chrome의 내장 AI API는 가능한 경우 WebGPU를 쓰며, 현대 노트북의 내장 GPU도 여기에 포함된다. 순수 CPU 경로라면 속도가 크게 떨어질 수 있다. 또 Gemini Nano와 Gemma를 같은 모델로 보면 안 된다는 정정도 이어졌다.
이 반응이 중요한 이유는 로컬 LLM의 대중화가 성능보다 배포 경로에서 먼저 일어날 수 있기 때문이다. 브라우저가 모델 런타임과 배포 채널을 함께 제공하면, 사용자는 복잡한 추론 스택을 몰라도 작은 작업을 로컬에서 처리할 수 있다.
동시에 제약도 뚜렷하다. 모델 형식은 GGUF처럼 자유롭게 교체할 수 있는 방식이 아니고, 세션 토큰 한도와 API 접근 조건도 Chrome이 정한다. LocalLLaMA의 논점은 그래서 “완전한 오픈 로컬 추론”보다, 브라우저가 로컬 AI의 가장 넓은 진입로가 될 수 있느냐에 가깝다.
Related Articles
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA가 크게 반응한 이유는 demo가 직관적이었기 때문이다. 약 290MB짜리 1.7B Bonsai model이 WebGPU로 browser 안에서 돈다. 같은 thread는 곧바로 tokens per second, hallucination, llama.cpp support, 그리고 1-bit model이 narrow task 밖에서도 쓸 만한지 따지며 현실 체크를 붙였다.
Comments (0)
No comments yet. Be the first to comment!