Google DeepMind, 고빈도·저비용 워크로드용 Gemini 3.1 Flash-Lite 공개

X에서 나온 핵심 메시지

Google DeepMind는 2026년 3월 3일 X에서 Gemini 3.1 Flash-Lite가 Gemini 2.5 Flash보다 더 낮은 가격으로 더 빠른 성능을 낸다고 밝혔다. 게시물은 동시에 reasoning 강도를 조절하는 “thinking levels”를 강조했고, 생성형 UI, 대시보드, 시뮬레이션 같은 더 복잡한 작업도 처리할 수 있다고 설명했다. 즉 이 모델을 단순 저가형이 아니라, 대규모 처리와 일정 수준의 추론을 함께 노리는 tier로 제시한 셈이다.

이어진 Google 공식 블로그는 상업적 포지셔닝을 더 분명하게 보여준다. Google은 Gemini 3.1 Flash-Lite가 Google AI Studio의 Gemini API와 Vertex AI를 통해 preview로 롤아웃된다고 설명했다. 가격은 입력 100만 토큰당 0.25달러, 출력 100만 토큰당 1.50달러이며, Artificial Analysis 기준으로 2.5 Flash 대비 first token 도달 속도는 2.5배, 출력 속도는 45% 개선됐다고 주장한다.

모델 카드가 보여주는 범위

Google DeepMind가 공개한 model card는 3.1 Flash-Lite를 Gemini 3 계열의 natively multimodal reasoning model로 설명한다. 이 모델은 Gemini 3 Pro 기반이며, 최대 100만 토큰 context window와 최대 64K output tokens를 지원한다. Google은 이를 번역과 분류처럼 고빈도·저지연 작업에 최적화했다고 밝히면서도, 공개 benchmark에서 GPQA Diamond 86.9%, MMMU-Pro 76.8%, LiveCodeBench 72.0%, output speed 363 tokens/s라는 수치를 제시했다.

왜 중요한 출시인가

이 발표가 중요한 이유는 production AI의 경제성이 점점 저가·고처리량 tier에서 결정되기 때문이다. 실제 서비스 다수는 가장 큰 모델보다, 예측 가능한 latency와 조절 가능한 reasoning, 그리고 높은 요청량에서도 유지되는 비용 구조를 필요로 한다. Google은 이번 모델을 통해 번역, moderation, classification, lightweight agent 작업까지 하나의 저비용 serving tier에서 처리하려는 방향을 분명히 했다.

특히 thinking levels는 실무적으로 의미가 크다. 저렴한 모델과 더 깊게 생각하는 모델을 완전히 분리하는 대신, 같은 serving tier 안에서 reasoning depth를 조정할 수 있게 만들면 개발자는 model routing을 단순화하고 비용·성능 조절을 더 운영적으로 수행할 수 있다. 결국 이 모델의 가치는 단순 가격 인하가 아니라, 고빈도 워크로드에서도 추론 제어권을 함께 제공한다는 데 있다.

출처: Google DeepMind X 게시물, Google 공식 블로그, Google DeepMind model card

Google DeepMind, 고빈도·저비용 워크로드용 Gemini 3.1 Flash-Lite 공개

X에서 나온 핵심 메시지

모델 카드가 보여주는 범위

왜 중요한 출시인가

Related Articles

Google Deep Research, Gemini 3.1 Pro·MCP 연결로 기업 조사 에이전트화

Google Cloud, 분당 160억 토큰 시대… 승부수는 모델 아닌 에이전트 스택

Google, Gemini 3.1 Flash-Lite preview 공개... 가장 빠르고 비용 효율적인 Gemini 3 모델

Comments (0)

Leave a Comment

Related Articles

Google Deep Research, Gemini 3.1 Pro·MCP 연결로 기업 조사 에이전트화
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.

Google Cloud, 분당 160억 토큰 시대… 승부수는 모델 아닌 에이전트 스택

Google, Gemini 3.1 Flash-Lite preview 공개... 가장 빠르고 비용 효율적인 Gemini 3 모델
LLM Mar 13, 2026 2 min read