Google, 100만 토큰 컨텍스트·저단가 앞세운 Gemini 3.1 Flash-Lite 출시

Gemini 3 계열의 저비용 핵심 라인

Google은 2026년 3월 3일 Gemini 3.1 Flash-Lite를 발표하며, Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델이라고 밝혔다. 이번 발표의 핵심은 단순한 성능 경쟁보다, 대규모 트래픽 환경에서 예측 가능한 지연 시간과 단가를 제공하는 운영형 모델을 강화했다는 점이다.

배포는 즉시 진행된다. 모델은 Google AI Studio와 Vertex AI에서 사용 가능하며, Google은 Gemini 앱 데모도 수 주 내 제공할 예정이라고 설명했다. 즉, 기업 API 채널과 일반 사용자 접점이 동시에 확장되는 구조다.

기술·가격 지표에서 드러난 포지션

Google이 강조한 기술 포인트는 100만 토큰 컨텍스트 윈도우다. 긴 문맥 처리 능력을 유지하면서도, API에서 reasoning budget를 조절해 응답 품질·속도·비용을 워크로드별로 최적화할 수 있게 했다. 이 옵션은 동일 모델을 다양한 작업군에 재사용할 때 특히 유용하다.

가격 정책도 매우 공격적이다. Google 공개 기준으로 입력(text/image/video) 토큰은 100만 토큰당 0.10달러, 출력(text) 토큰은 100만 토큰당 0.40달러다. 대량 분류, 정보 추출, 규칙 기반 생성, 에이전트 1차 라우팅처럼 토큰당 비용이 아키텍처 전체 TCO를 좌우하는 구간에서 실무 영향이 크다.

실무 적용 관점의 의미

Google은 Gemini 3.1 Flash-Lite가 코딩·수학·과학·멀티모달 추론 벤치마크에서 Gemini 2.5 Flash-Lite 및 Gemini 2.0 Flash-Lite보다 우수하다고 설명했다. 외부 검증은 계속 필요하지만, 제품 메시지는 분명하다. “기본 배치 모델”로 쓸 수 있는 새 기준점을 제시하겠다는 것이다.

운영 전략 측면에서는 경량 모델로 대부분 트래픽을 처리하고, 어려운 케이스만 상위 모델로 승격하는 다단 라우팅이 더 실용적이 된다. Flash-Lite는 바로 그 구조를 위한 비용·성능 균형점을 노린 출시로 해석할 수 있다.

Google, 100만 토큰 컨텍스트·저단가 앞세운 Gemini 3.1 Flash-Lite 출시

Gemini 3 계열의 저비용 핵심 라인

기술·가격 지표에서 드러난 포지션

실무 적용 관점의 의미

Related Articles

Google DeepMind, 고빈도·저비용 워크로드용 Gemini 3.1 Flash-Lite 공개

Google Deep Research, Gemini 3.1 Pro·MCP 연결로 기업 조사 에이전트화

Google Cloud, 분당 160억 토큰 시대… 승부수는 모델 아닌 에이전트 스택

Comments (0)

Leave a Comment

Related Articles

Google DeepMind, 고빈도·저비용 워크로드용 Gemini 3.1 Flash-Lite 공개
LLM sources.twitter Mar 7, 2026 1 min read

Google Deep Research, Gemini 3.1 Pro·MCP 연결로 기업 조사 에이전트화
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.

Google Cloud, 분당 160억 토큰 시대… 승부수는 모델 아닌 에이전트 스택