Skip to content
부식 중

Google, Gemini 3.1 Flash-Lite preview 공개... 저비용 대량 AI workload 겨냥

Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →

Read in other languages: English日本語
LLM Mar 25, 2026 By Insights AI 1 min read 17 views Source

Google는 Mar 03, 2026, Gemini 3.1 Flash-Lite를 공개하며 Gemini 3 series 중 가장 빠르고 cost-efficient한 model이라고 소개했다. 이 model은 Gemini API를 통한 Google AI Studio와 enterprise용 Vertex AI에서 preview로 제공된다. Google는 이번 출시를 최고 성능 flagship보다는 대규모 product workload를 효율적으로 처리하는 operational model로 설명했다.

가격은 $0.25/1M input tokens와 $1.50/1M output tokens다. Google에 따르면 Gemini 3.1 Flash-Lite는 2.5 Flash 대비 2.5X faster Time to First Answer Token과 45% higher output speed를 제공하면서도 quality는 비슷하거나 더 낫다. 이 조합은 translation, moderation, support automation처럼 호출 빈도가 높고 cost ceiling이 중요한 workload에서 특히 의미가 크다.

성능 지표

  • Arena.ai Elo 1432.
  • GPQA Diamond 86.9%.
  • MMMU Pro 76.8%.
  • AI Studio와 Vertex AI에서 thinking levels 제공.

Google가 제시한 활용 사례도 실무 지향적이다. high-volume translation, content moderation, user interface와 dashboard generation, simulations, multi-step business tasks가 대표적이다. early users로는 Latitude, Cartwheel, Whering이 언급됐다. 이는 Google가 Flash-Lite를 단순 demo model이 아니라 product team이 즉시 붙일 수 있는 low-latency foundation으로 밀고 있음을 보여준다.

이번 발표는 model 경쟁의 기준이 최고 benchmark 하나에서 latency, price, managed infrastructure 통합으로 옮겨가고 있음을 잘 보여준다. Google의 수치가 실제 운영에서도 유지된다면, Gemini 3.1 Flash-Lite는 항상 켜져 있는 AI 기능을 설계하려는 개발자에게 강한 기본 옵션이 될 가능성이 크다.

Share: Long

Related Articles

LLM 6d ago 1 min read

Google이 5월 19일 Google I/O 2026에서 개인 AI 에이전트 Gemini Spark와 Gemini 3.1 Pro를 모든 벤치마크에서 앞서는 Gemini 3.5 Flash를 동시 공개했다. Spark는 기기가 꺼진 상태에서도 24시간 작동하며 Gmail 직접 이메일·크롬 웹 작업까지 처리하는 상시 에이전트로, 다음 주 미국 AI Ultra 구독자부터 베타 제공된다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment