Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심
Original: Gemma 4 12B: A unified, encoder-free multimodal model View original →
Google의 Gemma 4 12B는 노트북급 환경에서 돌릴 수 있는 open-weights multimodal 모델이라는 점보다, 이미지와 오디오 입력을 별도 전용 encoder 없이 LLM backbone으로 직접 흘려보낸다는 설명으로 더 큰 관심을 받았다. Google은 이 모델을 12B 규모의 텍스트·이미지·오디오 입력 지원 모델로 소개했고, 사전학습 버전과 instruction-tuned 버전을 함께 내놨다.
기술적으로 논점은 “encoder-free”의 의미다. HN 댓글은 vision encoder를 없앴다는 설명이 완전히 encoding이 사라졌다는 뜻은 아니라는 점을 파고들었다. Google 설명에 따르면 vision 쪽은 단일 행렬 곱, positional embedding, normalization으로 구성된 가벼운 embedding module을 사용한다. 전통적인 SigLIP 같은 독립 vision model을 붙이는 방식과 다르지만, 입력을 토큰 공간으로 바꾸는 단계 자체는 남아 있다는 해석이다.
Local AI 사용자에게는 12B라는 크기도 중요하다. 124B급 MoE를 기다리는 사람도 있지만, 실제 데스크톱과 노트북에서 자주 돌릴 수 있는 모델은 이 구간에 있다. 256K context window, multilingual support, open weights라는 조합은 로컬 문서 처리, 이미지 기반 질의응답, 작은 agent workflow에 바로 실험해볼 만한 조건을 만든다.
커뮤니티 반응은 단순한 출시 환영보다 구조 설명 요구에 가까웠다. “전용 encoder가 없다면 robustness는 어디서 보장되는가”, “Ollama와 MLX 지원은 Mac 중심인가”, “작은 multimodal 모델을 일상에서 어떻게 쓰는가” 같은 질문이 이어졌다. Gemma 4 12B의 첫 평가는 benchmark 숫자보다, Google이 open model 전략에서 얼마나 공격적으로 실사용 가능한 크기를 밀고 있는지에 맞춰지고 있다.
Related Articles
711점까지 오른 관심은 “GPU 없이 가능하다”보다 memory bandwidth와 inference 최적화의 현실에 쏠렸다.
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.