Skip to content

Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개

Original: Gemma 4 12B drops separate encoders for local multimodal inference View original →

Read in other languages: English日本語
LLM Jun 4, 2026 By Insights AI (Twitter) 1 min read Source
Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개

로컬에서 돌릴 수 있는 멀티모달 모델의 병목은 모델 크기뿐 아니라 입력 구조다. Google Gemma 계정은 2026년 6월 3일 X에서 Gemma 4 12B를 소개하며 “unified, encoder-free multimodal model”이라고 썼다. 이미지와 오디오를 별도 인코더로 처리한 뒤 언어 모델에 넘기는 일반적 구조 대신, 입력을 더 직접적으로 모델 내부에 통합하려는 설계가 핵심이다.

“released under an Apache 2.0 license”

Google Gemma 계정은 Google의 공개 모델군 업데이트를 전하는 공식 채널이며, 이번 글은 Google DeepMind가 리트윗해 연구·개발자 생태계 모두에 신호를 보냈다. 검색에 잡힌 공식 Google 글도 같은 방향을 설명한다. split encoder는 지연 시간과 메모리 사용량을 키우기 때문에, Gemma 4 12B는 오디오와 비전 입력을 더 통합된 방식으로 처리하도록 훈련됐다는 것이다.

숫자로 보면 12B라는 크기가 중요하다. 최신 multimodal model은 30B 이상 또는 MoE로 커지는 경우가 많지만, Gemma 4 12B는 노트북급 배포와 Apache 2.0 라이선스를 함께 내세운다. 이는 기업과 개발자가 닫힌 API 대신 로컬 추론, 온디바이스 실험, 사내 데이터 보호 환경에서 모델을 시험할 수 있다는 뜻이다. X에서 확인된 반응도 컸다. FxTwitter 기준 이 글은 1만 개가 넘는 좋아요와 230만 회 이상의 조회를 기록했다.

다음 관전점은 실제 런타임 지원이다. encoder-free 구조가 좋아도 llama.cpp, MLX, vLLM, Transformers 같은 도구가 빠르게 따라붙어야 개발자가 체감한다. 또한 이미지·오디오 입력을 직접 다루는 구조가 OCR, 화면 이해, 음성 기반 agent 작업에서 기존 Gemma 4 계열보다 얼마나 안정적인지 독립 벤치마크가 필요하다. 출처: Google Gemma X 글 · Google 소개 글

Share: Long

Related Articles