Google, Gemini 3.1 Flash-Lite preview 공개... 저비용 대량 AI workload 겨냥
Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →
Google는 Mar 03, 2026, Gemini 3.1 Flash-Lite를 공개하며 Gemini 3 series 중 가장 빠르고 cost-efficient한 model이라고 소개했다. 이 model은 Gemini API를 통한 Google AI Studio와 enterprise용 Vertex AI에서 preview로 제공된다. Google는 이번 출시를 최고 성능 flagship보다는 대규모 product workload를 효율적으로 처리하는 operational model로 설명했다.
가격은 $0.25/1M input tokens와 $1.50/1M output tokens다. Google에 따르면 Gemini 3.1 Flash-Lite는 2.5 Flash 대비 2.5X faster Time to First Answer Token과 45% higher output speed를 제공하면서도 quality는 비슷하거나 더 낫다. 이 조합은 translation, moderation, support automation처럼 호출 빈도가 높고 cost ceiling이 중요한 workload에서 특히 의미가 크다.
성능 지표
- Arena.ai Elo 1432.
- GPQA Diamond 86.9%.
- MMMU Pro 76.8%.
- AI Studio와 Vertex AI에서 thinking levels 제공.
Google가 제시한 활용 사례도 실무 지향적이다. high-volume translation, content moderation, user interface와 dashboard generation, simulations, multi-step business tasks가 대표적이다. early users로는 Latitude, Cartwheel, Whering이 언급됐다. 이는 Google가 Flash-Lite를 단순 demo model이 아니라 product team이 즉시 붙일 수 있는 low-latency foundation으로 밀고 있음을 보여준다.
이번 발표는 model 경쟁의 기준이 최고 benchmark 하나에서 latency, price, managed infrastructure 통합으로 옮겨가고 있음을 잘 보여준다. Google의 수치가 실제 운영에서도 유지된다면, Gemini 3.1 Flash-Lite는 항상 켜져 있는 AI 기능을 설계하려는 개발자에게 강한 기본 옵션이 될 가능성이 크다.
Related Articles
Google이 에이전트 워크플로우에 최적화된 Gemini 3.5 Flash를 출시했다. 타 프론티어 모델 대비 4배 빠른 출력 속도와 절반 이하의 비용을 제공하며 코딩·멀티모달·추론 벤치마크에서 최상위권을 기록했다.
Google이 5월 19일 Google I/O 2026에서 개인 AI 에이전트 Gemini Spark와 Gemini 3.1 Pro를 모든 벤치마크에서 앞서는 Gemini 3.5 Flash를 동시 공개했다. Spark는 기기가 꺼진 상태에서도 24시간 작동하며 Gmail 직접 이메일·크롬 웹 작업까지 처리하는 상시 에이전트로, 다음 주 미국 AI Ultra 구독자부터 베타 제공된다.
Google이 I/O 2026에서 Gemini 3.5 Flash를 GA 출시했다. Gemini 3.1 Pro를 코딩·에이전트 벤치마크에서 능가하면서도 출력 속도는 4배 빠르고 비용은 40% 저렴하다.
Comments (0)
No comments yet. Be the first to comment!