Google, Gemini 3.1 Flash-Lite preview 공개... 저비용 대량 AI workload 겨냥
Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →
Google는 Mar 03, 2026, Gemini 3.1 Flash-Lite를 공개하며 Gemini 3 series 중 가장 빠르고 cost-efficient한 model이라고 소개했다. 이 model은 Gemini API를 통한 Google AI Studio와 enterprise용 Vertex AI에서 preview로 제공된다. Google는 이번 출시를 최고 성능 flagship보다는 대규모 product workload를 효율적으로 처리하는 operational model로 설명했다.
가격은 $0.25/1M input tokens와 $1.50/1M output tokens다. Google에 따르면 Gemini 3.1 Flash-Lite는 2.5 Flash 대비 2.5X faster Time to First Answer Token과 45% higher output speed를 제공하면서도 quality는 비슷하거나 더 낫다. 이 조합은 translation, moderation, support automation처럼 호출 빈도가 높고 cost ceiling이 중요한 workload에서 특히 의미가 크다.
성능 지표
- Arena.ai Elo 1432.
- GPQA Diamond 86.9%.
- MMMU Pro 76.8%.
- AI Studio와 Vertex AI에서 thinking levels 제공.
Google가 제시한 활용 사례도 실무 지향적이다. high-volume translation, content moderation, user interface와 dashboard generation, simulations, multi-step business tasks가 대표적이다. early users로는 Latitude, Cartwheel, Whering이 언급됐다. 이는 Google가 Flash-Lite를 단순 demo model이 아니라 product team이 즉시 붙일 수 있는 low-latency foundation으로 밀고 있음을 보여준다.
이번 발표는 model 경쟁의 기준이 최고 benchmark 하나에서 latency, price, managed infrastructure 통합으로 옮겨가고 있음을 잘 보여준다. Google의 수치가 실제 운영에서도 유지된다면, Gemini 3.1 Flash-Lite는 항상 켜져 있는 AI 기능을 설계하려는 개발자에게 강한 기본 옵션이 될 가능성이 크다.
Related Articles
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
Google은 AI 사업이 실험 단계를 넘어 운영 단계로 들어섰다고 주장한다. Cloud 고객의 75%가 AI 제품을 쓰고, 지난 12개월 동안 1조 토큰을 넘긴 고객이 330곳, 자사 모델 API 처리량은 분당 160억 토큰에 달했다며 Gemini Enterprise Agent Platform을 전면에 내세웠다.
Google은 2026년 3월 3일 Gemini 3.1 Flash-Lite를 공개하고 이를 Gemini 3 시리즈 중 가장 빠르고 비용 효율적인 모델로 소개했다. 이 모델은 Google AI Studio의 Gemini API와 Vertex AI에서 preview로 제공되며, $0.25/1M input tokens와 $1.50/1M output tokens 가격, 2.5 Flash 대비 2.5배 빠른 Time to First Answer Token, 45% 높은 output speed를 전면에 내세운다.
Comments (0)
No comments yet. Be the first to comment!