Google, Gemini 3.1 Flash-Lite preview 공개... 저비용 대량 AI workload 겨냥
Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →
Google는 Mar 03, 2026, Gemini 3.1 Flash-Lite를 공개하며 Gemini 3 series 중 가장 빠르고 cost-efficient한 model이라고 소개했다. 이 model은 Gemini API를 통한 Google AI Studio와 enterprise용 Vertex AI에서 preview로 제공된다. Google는 이번 출시를 최고 성능 flagship보다는 대규모 product workload를 효율적으로 처리하는 operational model로 설명했다.
가격은 $0.25/1M input tokens와 $1.50/1M output tokens다. Google에 따르면 Gemini 3.1 Flash-Lite는 2.5 Flash 대비 2.5X faster Time to First Answer Token과 45% higher output speed를 제공하면서도 quality는 비슷하거나 더 낫다. 이 조합은 translation, moderation, support automation처럼 호출 빈도가 높고 cost ceiling이 중요한 workload에서 특히 의미가 크다.
성능 지표
- Arena.ai Elo 1432.
- GPQA Diamond 86.9%.
- MMMU Pro 76.8%.
- AI Studio와 Vertex AI에서 thinking levels 제공.
Google가 제시한 활용 사례도 실무 지향적이다. high-volume translation, content moderation, user interface와 dashboard generation, simulations, multi-step business tasks가 대표적이다. early users로는 Latitude, Cartwheel, Whering이 언급됐다. 이는 Google가 Flash-Lite를 단순 demo model이 아니라 product team이 즉시 붙일 수 있는 low-latency foundation으로 밀고 있음을 보여준다.
이번 발표는 model 경쟁의 기준이 최고 benchmark 하나에서 latency, price, managed infrastructure 통합으로 옮겨가고 있음을 잘 보여준다. Google의 수치가 실제 운영에서도 유지된다면, Gemini 3.1 Flash-Lite는 항상 켜져 있는 AI 기능을 설계하려는 개발자에게 강한 기본 옵션이 될 가능성이 크다.
Related Articles
Google은 2026년 3월 3일 Gemini 3.1 Flash-Lite를 공개하고 이를 Gemini 3 시리즈 중 가장 빠르고 비용 효율적인 모델로 소개했다. 이 모델은 Google AI Studio의 Gemini API와 Vertex AI에서 preview로 제공되며, $0.25/1M input tokens와 $1.50/1M output tokens 가격, 2.5 Flash 대비 2.5배 빠른 Time to First Answer Token, 45% 높은 output speed를 전면에 내세운다.
Google이 Gemini 3.1 Flash-Lite를 preview로 공개했다. 회사는 이 모델을 Gemini 3 시리즈 중 가장 빠르고 비용 효율적인 옵션으로 제시하며, 대량 translation·moderation·agent workload를 겨냥하고 있다.
Google은 Gemini API 개발자를 위해 Project Spend Caps, 개편된 Usage Tiers, 새 billing dashboard를 AI Studio에 추가했다. Paid usage로 넘어가는 팀이 비용과 확장 조건을 더 예측 가능하게 관리하도록 설계된 업데이트다.
Comments (0)
No comments yet. Be the first to comment!