Google, 100만 토큰 컨텍스트·저단가 앞세운 Gemini 3.1 Flash-Lite 출시

Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →

Read in other languages: English日本語
LLM Mar 4, 2026 By Insights AI 1 min read 1 views Source

Gemini 3 계열의 저비용 핵심 라인

Google은 2026년 3월 3일 Gemini 3.1 Flash-Lite를 발표하며, Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델이라고 밝혔다. 이번 발표의 핵심은 단순한 성능 경쟁보다, 대규모 트래픽 환경에서 예측 가능한 지연 시간과 단가를 제공하는 운영형 모델을 강화했다는 점이다.

배포는 즉시 진행된다. 모델은 Google AI StudioVertex AI에서 사용 가능하며, Google은 Gemini 앱 데모도 수 주 내 제공할 예정이라고 설명했다. 즉, 기업 API 채널과 일반 사용자 접점이 동시에 확장되는 구조다.

기술·가격 지표에서 드러난 포지션

Google이 강조한 기술 포인트는 100만 토큰 컨텍스트 윈도우다. 긴 문맥 처리 능력을 유지하면서도, API에서 reasoning budget를 조절해 응답 품질·속도·비용을 워크로드별로 최적화할 수 있게 했다. 이 옵션은 동일 모델을 다양한 작업군에 재사용할 때 특히 유용하다.

가격 정책도 매우 공격적이다. Google 공개 기준으로 입력(text/image/video) 토큰은 100만 토큰당 0.10달러, 출력(text) 토큰은 100만 토큰당 0.40달러다. 대량 분류, 정보 추출, 규칙 기반 생성, 에이전트 1차 라우팅처럼 토큰당 비용이 아키텍처 전체 TCO를 좌우하는 구간에서 실무 영향이 크다.

실무 적용 관점의 의미

Google은 Gemini 3.1 Flash-Lite가 코딩·수학·과학·멀티모달 추론 벤치마크에서 Gemini 2.5 Flash-Lite 및 Gemini 2.0 Flash-Lite보다 우수하다고 설명했다. 외부 검증은 계속 필요하지만, 제품 메시지는 분명하다. “기본 배치 모델”로 쓸 수 있는 새 기준점을 제시하겠다는 것이다.

운영 전략 측면에서는 경량 모델로 대부분 트래픽을 처리하고, 어려운 케이스만 상위 모델로 승격하는 다단 라우팅이 더 실용적이 된다. Flash-Lite는 바로 그 구조를 위한 비용·성능 균형점을 노린 출시로 해석할 수 있다.

Share:

Related Articles

LLM sources.twitter 1d ago 1 min read

Google AI Developers는 Gemini Embedding 2를 Gemini API와 Vertex AI에서 preview로 제공한다고 밝혔다. 회사는 이를 Gemini architecture 기반의 첫 fully multimodal embedding model이자 가장 capable한 embedding model로 소개했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.