Pixel 9·10의 Gemini Nano, MTP로 token 생성 50% 이상 가속
Original: Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction View original →
스마트폰 AI의 병목은 모델 크기보다 매 token을 순서대로 생성하는 방식에 있다. Google Research는 2026년 6월 26일 Pixel 9·10에 적용된 Gemini Nano v3 최적화를 공개했다. 핵심은 이미 배포된 모델을 다시 학습하지 않고, frozen backbone 위에 Multi-Token Prediction(MTP) head를 붙여 on-device inference를 빠르게 만드는 접근이다.
일반적인 speculative decoding은 작은 drafter가 몇 개의 후보 token을 먼저 만들고, 큰 verifier가 이를 확인한다. 문제는 별도 drafter가 RAM을 차지하고, main model이 이미 계산한 내부 표현을 직접 활용하지 못한다는 점이다. Google은 이 구조를 standalone drafter에서 integrated MTP head로 바꿨다. head는 main model의 마지막 layer activation을 이용해 다음 token 후보를 예측한다.
frozen backbone을 유지한 점도 중요하다. Google은 완전히 학습된 Gemini Nano v3의 weight를 고정하고, 미래 token 예측 오차를 줄이도록 MTP head만 학습했다. 잘못된 draft는 verification 단계에서 버려지기 때문에 최종 출력은 main model과 bit-for-bit 동일하게 유지된다. 사용자는 품질이나 safety alignment 변화를 감수하지 않고 속도 개선만 받는 구조다.
모바일에서는 memory 복사 비용도 치명적이다. Google은 MTP head가 main model의 frozen KV cache를 직접 cross-attend하도록 설계해 별도 context prefill을 피했다. 이 zero-copy 구조로 standalone drafter 대비 instance당 130MB를 절감했고, prompt를 다시 처리하는 지연도 없앴다.
실험과 production workload에서 나온 수치가 이 접근의 이유를 보여준다. Pixel 9 기기 기준 task에 따라 token generation이 50% 이상 빨라졌고, AI Notification Summaries와 Proofread 같은 실제 기능에서는 inference pass마다 평균 거의 2개의 추가 token을 맞혔다. verification step이 줄어들면 heavy processor를 깨우는 횟수도 줄어 battery life에 유리하다. 자세한 내용은 Google Research 글에 정리돼 있다.
Related Articles
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.
기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.