Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개
Original: Gemma 4 12B drops separate encoders for local multimodal inference View original →
로컬에서 돌릴 수 있는 멀티모달 모델의 병목은 모델 크기뿐 아니라 입력 구조다. Google Gemma 계정은 2026년 6월 3일 X에서 Gemma 4 12B를 소개하며 “unified, encoder-free multimodal model”이라고 썼다. 이미지와 오디오를 별도 인코더로 처리한 뒤 언어 모델에 넘기는 일반적 구조 대신, 입력을 더 직접적으로 모델 내부에 통합하려는 설계가 핵심이다.
“released under an Apache 2.0 license”
Google Gemma 계정은 Google의 공개 모델군 업데이트를 전하는 공식 채널이며, 이번 글은 Google DeepMind가 리트윗해 연구·개발자 생태계 모두에 신호를 보냈다. 검색에 잡힌 공식 Google 글도 같은 방향을 설명한다. split encoder는 지연 시간과 메모리 사용량을 키우기 때문에, Gemma 4 12B는 오디오와 비전 입력을 더 통합된 방식으로 처리하도록 훈련됐다는 것이다.
숫자로 보면 12B라는 크기가 중요하다. 최신 multimodal model은 30B 이상 또는 MoE로 커지는 경우가 많지만, Gemma 4 12B는 노트북급 배포와 Apache 2.0 라이선스를 함께 내세운다. 이는 기업과 개발자가 닫힌 API 대신 로컬 추론, 온디바이스 실험, 사내 데이터 보호 환경에서 모델을 시험할 수 있다는 뜻이다. X에서 확인된 반응도 컸다. FxTwitter 기준 이 글은 1만 개가 넘는 좋아요와 230만 회 이상의 조회를 기록했다.
다음 관전점은 실제 런타임 지원이다. encoder-free 구조가 좋아도 llama.cpp, MLX, vLLM, Transformers 같은 도구가 빠르게 따라붙어야 개발자가 체감한다. 또한 이미지·오디오 입력을 직접 다루는 구조가 OCR, 화면 이해, 음성 기반 agent 작업에서 기존 Gemma 4 계열보다 얼마나 안정적인지 독립 벤치마크가 필요하다. 출처: Google Gemma X 글 · Google 소개 글
Related Articles
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.
Google AI Edge Team은 April 2, 2026에 Gemma 4가 Apache 2.0 license 아래서 phone, desktop, edge hardware에 multi-step agentic workflow를 가져온다고 밝혔다. 이번 발표는 open model, Agent Skills, LiteRT-LM deployment tooling을 함께 묶는다.
Google이 Gemma 4 모델군을 위한 Multi-Token Prediction(MTP) 드래프터를 공개했다. 추측적 디코딩 아키텍처를 통해 출력 품질 저하 없이 추론 속도를 최대 3배 높인다.