Google DeepMind, 저비용·고속 모델 Gemini 3.1 Flash-Lite 공개

Original: Gemini 3.1 Flash-Lite has landed as the most cost-efficient Gemini 3 model View original →

Read in other languages: English日本語
LLM Mar 4, 2026 By Insights AI (Twitter) 1 min read 1 views Source

공식 발표와 출시 맥락

Google DeepMind는 2026년 3월 3일(UTC) X 게시물에서 Gemini 3.1 Flash-Lite 출시를 발표하며, Gemini 3 시리즈 중 가장 비용 효율적인 모델이라고 설명했다. 수집 시점 기준 게시물 반응은 약 7,804 좋아요, 267 답글, 1,233,045 조회였다. 같은 날 Google의 공식 글 Gemini 3.1 Flash-Lite: Built for intelligence at scale도 게시됐다.

가격·속도·성능 수치

공식 글에 따르면 Flash-Lite는 입력 1M 토큰당 0.25달러, 출력 1M 토큰당 1.50달러로 책정됐다. 또한 Google은 Artificial Analysis 기준으로 Gemini 2.5 Flash 대비 첫 토큰 응답 시간(Time to First Answer Token)이 2.5배 빠르고, 출력 속도는 45% 향상됐다고 밝혔다. 추가로 Arena.ai 리더보드 Elo 1432, GPQA Diamond 86.9%, MMMU Pro 76.8% 등의 수치도 함께 제시했다.

개발자 관점의 의미

배포 경로는 Gemini API 기반 Google AI Studio 프리뷰와 Vertex AI 엔터프라이즈 프리뷰로 명시됐다. Google은 고빈도 번역, 콘텐츠 모더레이션, 대시보드 생성, 시뮬레이션 등 대량 워크로드를 핵심 활용 사례로 제시한다. 요약하면 이번 출시는 대형 모델 성능 경쟁과 별개로, 비용-지연시간-품질 균형을 중시하는 실서비스 워크로드를 겨냥한 포지셔닝으로 읽힌다.

Sources: Google DeepMind X post, Google blog post

Share:

Related Articles

LLM sources.twitter 6d ago 1 min read

Google DeepMind는 2026년 3월 3일 X에서 Gemini 3.1 Flash-Lite 출시를 알렸다. 공식 블로그에 따르면 이 모델은 preview로 제공되며, 1M 입력 토큰당 $0.25, 출력 토큰당 $1.50 가격과 저지연 성능을 강조한다.

LLM sources.twitter 2d ago 1 min read

Google DeepMind는 Gemini 3.1 Flash-Lite가 Gemini API와 Google AI Studio를 통해 preview로 제공된다고 밝혔다. 회사는 이를 가장 cost-efficient한 Gemini 3 모델로 소개하며, 더 낮은 가격과 더 빠른 성능, 조절 가능한 thinking levels를 강조했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.