Google DeepMind, 저비용·고속 모델 Gemini 3.1 Flash-Lite 공개

공식 발표와 출시 맥락

Google DeepMind는 2026년 3월 3일(UTC) X 게시물에서 Gemini 3.1 Flash-Lite 출시를 발표하며, Gemini 3 시리즈 중 가장 비용 효율적인 모델이라고 설명했다. 수집 시점 기준 게시물 반응은 약 7,804 좋아요, 267 답글, 1,233,045 조회였다. 같은 날 Google의 공식 글 Gemini 3.1 Flash-Lite: Built for intelligence at scale도 게시됐다.

가격·속도·성능 수치

공식 글에 따르면 Flash-Lite는 입력 1M 토큰당 0.25달러, 출력 1M 토큰당 1.50달러로 책정됐다. 또한 Google은 Artificial Analysis 기준으로 Gemini 2.5 Flash 대비 첫 토큰 응답 시간(Time to First Answer Token)이 2.5배 빠르고, 출력 속도는 45% 향상됐다고 밝혔다. 추가로 Arena.ai 리더보드 Elo 1432, GPQA Diamond 86.9%, MMMU Pro 76.8% 등의 수치도 함께 제시했다.

개발자 관점의 의미

배포 경로는 Gemini API 기반 Google AI Studio 프리뷰와 Vertex AI 엔터프라이즈 프리뷰로 명시됐다. Google은 고빈도 번역, 콘텐츠 모더레이션, 대시보드 생성, 시뮬레이션 등 대량 워크로드를 핵심 활용 사례로 제시한다. 요약하면 이번 출시는 대형 모델 성능 경쟁과 별개로, 비용-지연시간-품질 균형을 중시하는 실서비스 워크로드를 겨냥한 포지셔닝으로 읽힌다.

Sources: Google DeepMind X post, Google blog post

LLM sources.twitter Mar 6, 2026 1 min read

Google DeepMind, Gemini 3.1 Flash-Lite 프리뷰 출시

Google DeepMind는 2026년 3월 3일 X에서 Gemini 3.1 Flash-Lite 출시를 알렸다. 공식 블로그에 따르면 이 모델은 preview로 제공되며, 1M 입력 토큰당 $0.25, 출력 토큰당 $1.50 가격과 저지연 성능을 강조한다.

#google-deepmind #gemini #flash-lite

LLM 5d ago 1 min read

Google Deep Research, Gemini 3.1 Pro·MCP 연결로 기업 조사 에이전트화

Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.

#google #gemini #mcp

LLM 1d ago 1 min read

Google Cloud, 분당 160억 토큰 시대… 승부수는 모델 아닌 에이전트 스택

Google은 AI 사업이 실험 단계를 넘어 운영 단계로 들어섰다고 주장한다. Cloud 고객의 75%가 AI 제품을 쓰고, 지난 12개월 동안 1조 토큰을 넘긴 고객이 330곳, 자사 모델 API 처리량은 분당 160억 토큰에 달했다며 Gemini Enterprise Agent Platform을 전면에 내세웠다.

#google-cloud #gemini #agents