Google DeepMind, Gemini 3.1 Flash-Lite 프리뷰 출시
Original: Gemini 3.1 Flash-Lite has landed. It’s our most cost-efficient Gemini 3 series model yet, built for intelligence at scale. Here’s what’s new 🧵 View original →
출시 발표와 배포 경로
Google DeepMind는 2026년 3월 3일(UTC) X에서 Gemini 3.1 Flash-Lite 출시를 발표했다. 게시물은 “Gemini 3 시리즈 중 가장 cost-efficient 모델”이라는 메시지와 함께 상세 안내 링크를 제공했다. X 소스는 해당 게시물, 세부 내용은 Google 공식 블로그에서 확인할 수 있다.
공개된 성능·가격 지표
Google 설명에 따르면 3.1 Flash-Lite는 Google AI Studio 및 Vertex AI에서 preview로 제공된다. 가격은 입력 1M tokens당 $0.25, 출력 1M tokens당 $1.50로 제시됐다. 또한 Artificial Analysis 기준으로 2.5 Flash 대비 Time to First Answer Token 2.5배 개선, 출력 속도 45% 향상을 주장한다.
벤치마크 수치로는 Arena.ai Elo 1432, GPQA Diamond 86.9%, MMMU Pro 76.8%가 공개됐다. Google은 같은 티어 모델 대비 reasoning 및 multimodal understanding에서 우위를 강조하며, 이전 세대 대형 Gemini 모델 대비 효율 개선도 함께 제시했다.
제품 포지셔닝과 실사용 시나리오
블로그는 “thinking levels”를 표준 제공 기능으로 제시한다. 개발자는 작업 난이도와 비용 제약에 맞춰 추론 강도를 조절할 수 있고, 고빈도 번역·콘텐츠 moderation 같은 저지연 업무부터 UI 생성, 시뮬레이션 생성 같은 복합 업무까지 폭넓게 겨냥한다. Latitude, Cartwheel, Whering 등 초기 사용자 사례도 함께 소개됐다.
- 비용 관점: 대규모 요청 처리에서 단가 경쟁력 확보
- 성능 관점: latency와 output speed 최적화 중심
- 운영 관점: AI Studio/Vertex AI 양쪽에서 동일 모델 실험 가능
요약하면 Flash-Lite는 “최대 성능”보다 “실서비스 운영 효율”에 초점을 둔 모델로, 비용·응답속도·품질 균형이 필요한 production 워크로드를 정면으로 겨냥한 출시다.
Related Articles
Google DeepMind는 2026년 3월 3일 X에서 Gemini 3.1 Flash-Lite 출시를 알리며 Gemini 3 계열의 최저비용 모델이라고 강조했다. 같은 날 Google 블로그는 토큰 가격, 속도 지표, AI Studio/Vertex AI 프리뷰 제공 범위를 함께 공개했다.
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
Google은 AI 사업이 실험 단계를 넘어 운영 단계로 들어섰다고 주장한다. Cloud 고객의 75%가 AI 제품을 쓰고, 지난 12개월 동안 1조 토큰을 넘긴 고객이 330곳, 자사 모델 API 처리량은 분당 160억 토큰에 달했다며 Gemini Enterprise Agent Platform을 전면에 내세웠다.
Comments (0)
No comments yet. Be the first to comment!