Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심

Google의 Gemma 4 12B는 노트북급 환경에서 돌릴 수 있는 open-weights multimodal 모델이라는 점보다, 이미지와 오디오 입력을 별도 전용 encoder 없이 LLM backbone으로 직접 흘려보낸다는 설명으로 더 큰 관심을 받았다. Google은 이 모델을 12B 규모의 텍스트·이미지·오디오 입력 지원 모델로 소개했고, 사전학습 버전과 instruction-tuned 버전을 함께 내놨다.

기술적으로 논점은 “encoder-free”의 의미다. HN 댓글은 vision encoder를 없앴다는 설명이 완전히 encoding이 사라졌다는 뜻은 아니라는 점을 파고들었다. Google 설명에 따르면 vision 쪽은 단일 행렬 곱, positional embedding, normalization으로 구성된 가벼운 embedding module을 사용한다. 전통적인 SigLIP 같은 독립 vision model을 붙이는 방식과 다르지만, 입력을 토큰 공간으로 바꾸는 단계 자체는 남아 있다는 해석이다.

Local AI 사용자에게는 12B라는 크기도 중요하다. 124B급 MoE를 기다리는 사람도 있지만, 실제 데스크톱과 노트북에서 자주 돌릴 수 있는 모델은 이 구간에 있다. 256K context window, multilingual support, open weights라는 조합은 로컬 문서 처리, 이미지 기반 질의응답, 작은 agent workflow에 바로 실험해볼 만한 조건을 만든다.

커뮤니티 반응은 단순한 출시 환영보다 구조 설명 요구에 가까웠다. “전용 encoder가 없다면 robustness는 어디서 보장되는가”, “Ollama와 MLX 지원은 Mac 중심인가”, “작은 multimodal 모델을 일상에서 어떻게 쓰는가” 같은 질문이 이어졌다. Gemma 4 12B의 첫 평가는 benchmark 숫자보다, Google이 open model 전략에서 얼마나 공격적으로 실사용 가능한 크기를 밀고 있는지에 맞춰지고 있다.

Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심

Related Articles

13년 된 Xeon에서 Gemma 4 26B, GPU 없이 5 tok/s

Inkling 공개, open-weight 경쟁의 새 기준은 fine-tuning

Thinking Machines, Inkling 가중치 공개로 멀티모달 추론 경쟁 가속