Google AI Developers, Gemini 3.1 Flash-Lite 프리뷰 공개
Original: Gemini 3.1 Flash-Lite is rolling out in preview via the Gemini API in @googleaistudio. Our fastest and most cost-efficient Gemini 3 series model yet now comes with dynamic thinking to scale across tasks of any complexity. View original →
Google AI Developers는 2026년 3월 3일(게시 시각 4:41 PM · Mar 3, 2026) X 게시물을 통해 Gemini 3.1 Flash-Lite 프리뷰 롤아웃을 발표했다. 발표 문구에 따르면 이 모델은 Gemini API와 Google AI Studio 환경에서 제공되며, Gemini 3 시리즈 가운데 가장 빠르고 비용 효율적인 모델로 포지셔닝된다.
핵심 포인트는 성능 자체뿐 아니라 "dynamic thinking"의 도입이다. 게시물 설명대로라면 사용자는 작업 복잡도에 맞춰 모델의 추론 강도를 유연하게 조절할 수 있다. 이는 단일 고정 모드 모델 대비 지연 시간, 비용, 품질 사이의 균형을 제품 단계에서 더 세밀하게 설계할 수 있음을 의미한다.
개발자 관점에서는 프로토타이핑과 운영 환경 모두에서 선택지가 넓어진다. 간단한 분류, 요약, 자동화는 낮은 비용 프로파일로 처리하고, 구조화된 생성이나 다단계 판단이 필요한 요청에는 thinking 수준을 높여 대응하는 식의 정책 설계가 가능하다. 동일한 API 라인업 안에서 이런 전환을 구현할 수 있다는 점은 운영 복잡도를 줄이는 데 유리하다.
다만 현재 상태는 "preview"로 공지됐다. 실제 도입 시에는 워크로드별 정확도, 응답 일관성, 지연 시간, 토큰 비용을 별도 검증하는 절차가 필요하다. 그럼에도 이번 발표는 Google의 경량 모델 전략이 단순 저가형 모델을 넘어, 추론 제어 가능한 실전형 옵션으로 이동하고 있음을 보여주는 신호로 해석된다.
Related Articles
Google은 Gemini API 개발자를 위해 Project Spend Caps, 개편된 Usage Tiers, 새 billing dashboard를 AI Studio에 추가했다. Paid usage로 넘어가는 팀이 비용과 확장 조건을 더 예측 가능하게 관리하도록 설계된 업데이트다.
Google이 Gemini 3.1 Pro를 출시하며 ARC-AGI-2 벤치마크에서 77.1%를 기록했다. 이전 모델 대비 추론 성능이 2배 이상 향상되었으며, 복잡한 문제 해결을 위한 고급 추론 기능이 개발자와 일반 사용자에게 폭넓게 제공된다.
Google DeepMind는 Gemini 3.1 Flash-Lite가 Gemini API와 Google AI Studio를 통해 preview로 제공된다고 밝혔다. 회사는 이를 가장 cost-efficient한 Gemini 3 모델로 소개하며, 더 낮은 가격과 더 빠른 성능, 조절 가능한 thinking levels를 강조했다.