Google, Gemini 3.1 Flash-Lite 공개... 128k context와 저가 토큰 가격으로 대량 처리 겨냥

Original: Gemini 3.1 Flash-Lite View original →

Read in other languages: English日本語
LLM Mar 16, 2026 By Insights AI 1 min read 1 views Source

무엇이 달라졌나

Google DeepMind는 2026년 3월 3일 기준 Gemini 3.1 Flash-Lite를 자사의 가장 비용 효율적인 workhorse model로 제시했다. 제품 페이지와 model card에 따르면 이 모델은 high-volume, latency-sensitive workload를 겨냥하며, 더 큰 model이 필요하지 않은 routing, classification, extraction, lightweight agent 단계에 맞춰 설계됐다. Google은 Flash 계열의 feature parity를 유지하면서도 가격과 처리량 측면에서 더 공격적인 포지셔닝을 취했다고 설명한다.

모델 card 기준으로 Gemini 3.1 Flash-Lite는 128k input context8k output을 지원한다. Google은 pricing을 $0.10 per 1M input tokens, $0.40 per 1M output tokens, $0.025 per 1M cached tokens 수준으로 제시했다. 또한 multimodal 입력을 처리할 수 있고, product 페이지는 native audio generation까지 포함해 Flash 계열과의 기능 일관성을 강조한다.

Google이 내세운 성능 포인트

Google은 Gemini 3.1 Flash-Lite가 code, math, science reasoning, multimodal benchmark에서 다른 lite 모델들뿐 아니라 일부 더 큰 모델까지 앞선다고 주장한다. 핵심 메시지는 절대 최고 성능보다는 가격 대비 성능이다. 모델을 무조건 크게 만드는 대신, 대규모 배치 처리나 응답 속도가 중요한 제품에서 unit economics를 낮추는 방향으로 최적화했다는 설명이다.

배포 채널도 넓다. Google은 이 모델을 Google AI Studio, Gemini API, Vertex AI에서 사용할 수 있도록 제공하고 있다. 이는 prototyping에서 production까지 같은 계열 모델을 이어서 쓰고 싶은 팀에게 실무적인 의미가 있다.

왜 중요한가

Flash-Lite의 포인트는 frontier benchmark 경쟁이 아니라 AI 서비스 원가 구조다. 많은 제품은 최고 성능 모델보다도 저렴하고 빠르며 충분히 정확한 model을 더 자주 호출한다. Gemini 3.1 Flash-Lite는 그런 운영 현실에 맞춘 모델로, 2026년 LLM 경쟁이 “누가 가장 똑똑한가”에서 “누가 가장 싸고 빠르게 충분한 성능을 내는가”로 이동하고 있음을 보여준다.

출처: Google DeepMind

Share: Long

Related Articles

LLM sources.twitter 5d ago 1 min read

Google AI Developers는 Gemini Embedding 2를 Gemini API와 Vertex AI에서 preview로 제공한다고 밝혔다. 회사는 이를 Gemini architecture 기반의 첫 fully multimodal embedding model이자 가장 capable한 embedding model로 소개했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.