Google, Gemini 3.1 Flash-Lite preview 공개... 가장 빠르고 비용 효율적인 Gemini 3 모델

Google이 상시 대량 처리용 Gemini 모델을 내놨다

Google은 March 3, 2026 Gemini 3.1 Flash-Lite를 발표하며 Gemini 3 계열에서 가장 빠르고 가장 비용 효율적인 모델이라고 설명했다. 이번 발표의 초점은 최고 성능 경쟁이 아니라, translation, moderation, routing처럼 요청량이 많은 워크로드를 더 낮은 비용과 더 짧은 지연으로 처리하게 만드는 데 있다. Google은 이 모델을 개발자에게는 Gemini API 기반 Google AI Studio에서, 기업에는 Vertex AI에서 preview로 제공하기 시작했다고 밝혔다. 즉, 개인 개발자 실험 단계와 기업 배포 준비 단계 모두를 동시에 겨냥한 출시다.

핵심은 가격과 속도다

Google이 제시한 가격은 $0.25/1M input tokens와 $1.50/1M output tokens다. 회사는 Gemini 3.1 Flash-Lite가 Gemini 2.5 Flash보다 더 나은 성능을 제공하면서도 Time to First Answer Token은 2.5X 더 빠르고 output speed는 45% 더 높다고 설명했다. 이런 수치는 단순 benchmark 이상의 의미가 있다. 비용과 응답 지연이 누적되는 고빈도 서비스에서는 작은 개선도 운영비와 사용자 경험에 직접 연결되기 때문이다. Google은 특히 high-volume translation과 content moderation처럼 요청당 마진이 얇은 작업을 주요 사용 사례로 제시했다.

저가형 모델이지만 품질에서도 공격적이다

Google은 Gemini 3.1 Flash-Lite가 Arena.ai Leaderboard에서 Elo score 1432를 기록했고, reasoning과 multimodal understanding benchmark에서도 동급 모델을 앞섰다고 밝혔다. 회사가 제시한 수치는 GPQA Diamond 86.9%, MMMU Pro 76.8%다. Google은 이 모델이 이전 세대의 더 큰 Gemini 모델 일부까지 능가한다고 설명했다. 실제 production 환경 평가는 더 지켜봐야 하지만, Google이 Flash-Lite를 단순한 보급형 모델이 아니라 가격 대비 품질이 높은 기본 선택지로 포지셔닝하고 있다는 점은 분명하다.

thinking levels까지 포함해 활용 범위를 넓혔다

이번 발표에서 중요한 또 하나의 포인트는 Gemini 3.1 Flash-Lite가 AI Studio와 Vertex AI에서 thinking levels를 기본 제공한다는 점이다. Google은 이를 통해 개발자가 작업별로 모델이 얼마나 많이 "생각"할지 조절할 수 있다고 설명했다. 즉 같은 모델을 low-cost translation과 moderation에 쓸 수도 있고, 더 복잡한 instruction following, user interface 생성, dashboard 구성, simulation 작성 같은 작업에도 쓸 수 있다는 의미다. Google에 따르면 Latitude, Cartwheel, Whering 같은 early-access 사용자들이 이미 이 모델을 활용하고 있다. 이번 출시는 Google이 저비용 모델 경쟁을 단순 price war가 아니라 configurable reasoning과 enterprise tooling까지 포함한 제품 경쟁으로 끌고 가겠다는 신호에 가깝다.

Source: Google

Google, Gemini 3.1 Flash-Lite preview 공개... 가장 빠르고 비용 효율적인 Gemini 3 모델

Google이 상시 대량 처리용 Gemini 모델을 내놨다

핵심은 가격과 속도다

저가형 모델이지만 품질에서도 공격적이다

thinking levels까지 포함해 활용 범위를 넓혔다

Related Articles

Google DeepMind, 고빈도·저비용 워크로드용 Gemini 3.1 Flash-Lite 공개

Google AI, Gemini 3.1 Flash-Lite의 대규모 멀티모달 활용 사례 공개

Google, multimodal retrieval용 Gemini Embedding 2 프리뷰 공개

Comments (0)

Leave a Comment

Related Articles

Google DeepMind, 고빈도·저비용 워크로드용 Gemini 3.1 Flash-Lite 공개

Google AI, Gemini 3.1 Flash-Lite의 대규모 멀티모달 활용 사례 공개

Google, multimodal retrieval용 Gemini Embedding 2 프리뷰 공개