Google DeepMind, 저비용·고속 모델 Gemini 3.1 Flash-Lite 공개
Original: Gemini 3.1 Flash-Lite has landed as the most cost-efficient Gemini 3 model View original →
공식 발표와 출시 맥락
Google DeepMind는 2026년 3월 3일(UTC) X 게시물에서 Gemini 3.1 Flash-Lite 출시를 발표하며, Gemini 3 시리즈 중 가장 비용 효율적인 모델이라고 설명했다. 수집 시점 기준 게시물 반응은 약 7,804 좋아요, 267 답글, 1,233,045 조회였다. 같은 날 Google의 공식 글 Gemini 3.1 Flash-Lite: Built for intelligence at scale도 게시됐다.
가격·속도·성능 수치
공식 글에 따르면 Flash-Lite는 입력 1M 토큰당 0.25달러, 출력 1M 토큰당 1.50달러로 책정됐다. 또한 Google은 Artificial Analysis 기준으로 Gemini 2.5 Flash 대비 첫 토큰 응답 시간(Time to First Answer Token)이 2.5배 빠르고, 출력 속도는 45% 향상됐다고 밝혔다. 추가로 Arena.ai 리더보드 Elo 1432, GPQA Diamond 86.9%, MMMU Pro 76.8% 등의 수치도 함께 제시했다.
개발자 관점의 의미
배포 경로는 Gemini API 기반 Google AI Studio 프리뷰와 Vertex AI 엔터프라이즈 프리뷰로 명시됐다. Google은 고빈도 번역, 콘텐츠 모더레이션, 대시보드 생성, 시뮬레이션 등 대량 워크로드를 핵심 활용 사례로 제시한다. 요약하면 이번 출시는 대형 모델 성능 경쟁과 별개로, 비용-지연시간-품질 균형을 중시하는 실서비스 워크로드를 겨냥한 포지셔닝으로 읽힌다.
Sources: Google DeepMind X post, Google blog post
Related Articles
Google DeepMind는 2026년 3월 3일 X에서 Gemini 3.1 Flash-Lite 출시를 알렸다. 공식 블로그에 따르면 이 모델은 preview로 제공되며, 1M 입력 토큰당 $0.25, 출력 토큰당 $1.50 가격과 저지연 성능을 강조한다.
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
Google은 AI 사업이 실험 단계를 넘어 운영 단계로 들어섰다고 주장한다. Cloud 고객의 75%가 AI 제품을 쓰고, 지난 12개월 동안 1조 토큰을 넘긴 고객이 330곳, 자사 모델 API 처리량은 분당 160억 토큰에 달했다며 Gemini Enterprise Agent Platform을 전면에 내세웠다.
Comments (0)
No comments yet. Be the first to comment!