Pixel 9·10의 Gemini Nano, MTP로 token 생성 50% 이상 가속

스마트폰 AI의 병목은 모델 크기보다 매 token을 순서대로 생성하는 방식에 있다. Google Research는 2026년 6월 26일 Pixel 9·10에 적용된 Gemini Nano v3 최적화를 공개했다. 핵심은 이미 배포된 모델을 다시 학습하지 않고, frozen backbone 위에 Multi-Token Prediction(MTP) head를 붙여 on-device inference를 빠르게 만드는 접근이다.

일반적인 speculative decoding은 작은 drafter가 몇 개의 후보 token을 먼저 만들고, 큰 verifier가 이를 확인한다. 문제는 별도 drafter가 RAM을 차지하고, main model이 이미 계산한 내부 표현을 직접 활용하지 못한다는 점이다. Google은 이 구조를 standalone drafter에서 integrated MTP head로 바꿨다. head는 main model의 마지막 layer activation을 이용해 다음 token 후보를 예측한다.

frozen backbone을 유지한 점도 중요하다. Google은 완전히 학습된 Gemini Nano v3의 weight를 고정하고, 미래 token 예측 오차를 줄이도록 MTP head만 학습했다. 잘못된 draft는 verification 단계에서 버려지기 때문에 최종 출력은 main model과 bit-for-bit 동일하게 유지된다. 사용자는 품질이나 safety alignment 변화를 감수하지 않고 속도 개선만 받는 구조다.

모바일에서는 memory 복사 비용도 치명적이다. Google은 MTP head가 main model의 frozen KV cache를 직접 cross-attend하도록 설계해 별도 context prefill을 피했다. 이 zero-copy 구조로 standalone drafter 대비 instance당 130MB를 절감했고, prompt를 다시 처리하는 지연도 없앴다.

실험과 production workload에서 나온 수치가 이 접근의 이유를 보여준다. Pixel 9 기기 기준 task에 따라 token generation이 50% 이상 빨라졌고, AI Notification Summaries와 Proofread 같은 실제 기능에서는 inference pass마다 평균 거의 2개의 추가 token을 맞혔다. verification step이 줄어들면 heavy processor를 깨우는 횟수도 줄어 battery life에 유리하다. 자세한 내용은 Google Research 글에 정리돼 있다.

Pixel 9·10의 Gemini Nano, MTP로 token 생성 50% 이상 가속

Related Articles

Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개

Gemini 3.5 Flash GA, Google Search까지 agent 표면으로 확장

Google Agentic RAG, 답 못 찾는 검색을 34% 정확도 개선으로