Google DeepMind, 고빈도·저비용 워크로드용 Gemini 3.1 Flash-Lite 공개

Original: 3.1 Flash-Lite outperforms 2.5 Flash with faster performance at a lower price. New ‘thinking levels’ let you dial in reasoning to adapt for different tasks, while still being able to handle complex workloads - like generating UI and dashboards or creating simulations. View original →

Read in other languages: English日本語
LLM Mar 7, 2026 By Insights AI 1 min read 3 views Source

X에서 나온 핵심 메시지

Google DeepMind는 2026년 3월 3일 X에서 Gemini 3.1 Flash-Lite가 Gemini 2.5 Flash보다 더 낮은 가격으로 더 빠른 성능을 낸다고 밝혔다. 게시물은 동시에 reasoning 강도를 조절하는 “thinking levels”를 강조했고, 생성형 UI, 대시보드, 시뮬레이션 같은 더 복잡한 작업도 처리할 수 있다고 설명했다. 즉 이 모델을 단순 저가형이 아니라, 대규모 처리와 일정 수준의 추론을 함께 노리는 tier로 제시한 셈이다.

이어진 Google 공식 블로그는 상업적 포지셔닝을 더 분명하게 보여준다. Google은 Gemini 3.1 Flash-Lite가 Google AI Studio의 Gemini APIVertex AI를 통해 preview로 롤아웃된다고 설명했다. 가격은 입력 100만 토큰당 0.25달러, 출력 100만 토큰당 1.50달러이며, Artificial Analysis 기준으로 2.5 Flash 대비 first token 도달 속도는 2.5배, 출력 속도는 45% 개선됐다고 주장한다.

모델 카드가 보여주는 범위

Google DeepMind가 공개한 model card는 3.1 Flash-Lite를 Gemini 3 계열의 natively multimodal reasoning model로 설명한다. 이 모델은 Gemini 3 Pro 기반이며, 최대 100만 토큰 context window와 최대 64K output tokens를 지원한다. Google은 이를 번역과 분류처럼 고빈도·저지연 작업에 최적화했다고 밝히면서도, 공개 benchmark에서 GPQA Diamond 86.9%, MMMU-Pro 76.8%, LiveCodeBench 72.0%, output speed 363 tokens/s라는 수치를 제시했다.

왜 중요한 출시인가

이 발표가 중요한 이유는 production AI의 경제성이 점점 저가·고처리량 tier에서 결정되기 때문이다. 실제 서비스 다수는 가장 큰 모델보다, 예측 가능한 latency와 조절 가능한 reasoning, 그리고 높은 요청량에서도 유지되는 비용 구조를 필요로 한다. Google은 이번 모델을 통해 번역, moderation, classification, lightweight agent 작업까지 하나의 저비용 serving tier에서 처리하려는 방향을 분명히 했다.

특히 thinking levels는 실무적으로 의미가 크다. 저렴한 모델과 더 깊게 생각하는 모델을 완전히 분리하는 대신, 같은 serving tier 안에서 reasoning depth를 조정할 수 있게 만들면 개발자는 model routing을 단순화하고 비용·성능 조절을 더 운영적으로 수행할 수 있다. 결국 이 모델의 가치는 단순 가격 인하가 아니라, 고빈도 워크로드에서도 추론 제어권을 함께 제공한다는 데 있다.

출처: Google DeepMind X 게시물, Google 공식 블로그, Google DeepMind model card

Share:

Related Articles

LLM sources.twitter 1d ago 1 min read

Google AI Developers는 Gemini Embedding 2를 Gemini API와 Vertex AI에서 preview로 제공한다고 밝혔다. 회사는 이를 Gemini architecture 기반의 첫 fully multimodal embedding model이자 가장 capable한 embedding model로 소개했다.

LLM sources.twitter 2d ago 1 min read

Google DeepMind는 Gemini 3.1 Flash-Lite가 Gemini API와 Google AI Studio를 통해 preview로 제공된다고 밝혔다. 회사는 이를 가장 cost-efficient한 Gemini 3 모델로 소개하며, 더 낮은 가격과 더 빠른 성능, 조절 가능한 thinking levels를 강조했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.