Google DeepMind, 저비용·고속 모델 Gemini 3.1 Flash-Lite 공개
Original: Gemini 3.1 Flash-Lite has landed as the most cost-efficient Gemini 3 model View original →
공식 발표와 출시 맥락
Google DeepMind는 2026년 3월 3일(UTC) X 게시물에서 Gemini 3.1 Flash-Lite 출시를 발표하며, Gemini 3 시리즈 중 가장 비용 효율적인 모델이라고 설명했다. 수집 시점 기준 게시물 반응은 약 7,804 좋아요, 267 답글, 1,233,045 조회였다. 같은 날 Google의 공식 글 Gemini 3.1 Flash-Lite: Built for intelligence at scale도 게시됐다.
가격·속도·성능 수치
공식 글에 따르면 Flash-Lite는 입력 1M 토큰당 0.25달러, 출력 1M 토큰당 1.50달러로 책정됐다. 또한 Google은 Artificial Analysis 기준으로 Gemini 2.5 Flash 대비 첫 토큰 응답 시간(Time to First Answer Token)이 2.5배 빠르고, 출력 속도는 45% 향상됐다고 밝혔다. 추가로 Arena.ai 리더보드 Elo 1432, GPQA Diamond 86.9%, MMMU Pro 76.8% 등의 수치도 함께 제시했다.
개발자 관점의 의미
배포 경로는 Gemini API 기반 Google AI Studio 프리뷰와 Vertex AI 엔터프라이즈 프리뷰로 명시됐다. Google은 고빈도 번역, 콘텐츠 모더레이션, 대시보드 생성, 시뮬레이션 등 대량 워크로드를 핵심 활용 사례로 제시한다. 요약하면 이번 출시는 대형 모델 성능 경쟁과 별개로, 비용-지연시간-품질 균형을 중시하는 실서비스 워크로드를 겨냥한 포지셔닝으로 읽힌다.
Sources: Google DeepMind X post, Google blog post
Related Articles
Google DeepMind는 2026년 3월 3일 X에서 Gemini 3.1 Flash-Lite 출시를 알렸다. 공식 블로그에 따르면 이 모델은 preview로 제공되며, 1M 입력 토큰당 $0.25, 출력 토큰당 $1.50 가격과 저지연 성능을 강조한다.
Google DeepMind는 2026년 3월 3일 Gemini 3.1 Flash-Lite를 공개하며 더 낮은 가격과 더 빠른 성능을 강조했다. Google은 이 모델을 AI Studio와 Vertex AI에서 preview로 제공하며, 고빈도 처리와 일정 수준의 추론을 동시에 겨냥한다고 설명했다.
Google DeepMind는 Gemini 3.1 Flash-Lite가 Gemini API와 Google AI Studio를 통해 preview로 제공된다고 밝혔다. 회사는 이를 가장 cost-efficient한 Gemini 3 모델로 소개하며, 더 낮은 가격과 더 빠른 성능, 조절 가능한 thinking levels를 강조했다.
Comments (0)
No comments yet. Be the first to comment!