Google, Gemini 3.1 Pro 출시 — ARC-AGI-2 77.1% 달성, 추론 성능 2배 향상
Google DeepMind, Gemini 3.1 Pro 정식 출시
Google DeepMind가 2026년 2월 19일 Gemini 3.1 Pro를 정식 출시했다. Gemini 3 시리즈의 최신 버전으로, 복잡한 추론과 멀티모달 이해 능력이 대폭 강화됐다.
주요 벤치마크 성과
Gemini 3.1 Pro는 AI 추론 능력의 핵심 지표인 ARC-AGI-2에서 77.1%를 기록해, 전작 Gemini 3 Pro의 31.1%보다 2배 이상 향상됐다. 코딩 벤치마크인 SWE-Bench Verified에서는 80.6%, 과학 추론을 평가하는 GPQA Diamond에서는 94.3%를 달성했다. Terminal-Bench 2.0에서는 68.5%를 기록했다.
기술 사양
100만 토큰의 입력 컨텍스트 창을 지원해 1,500페이지 이상의 텍스트나 전체 코드 저장소를 단일 프롬프트로 처리할 수 있다. 최대 출력 토큰은 65,536개다. 텍스트, 이미지, 오디오, 비디오, 코드를 아우르는 네이티브 멀티모달 처리 능력을 갖췄다.
핵심 개선 사항
추론의 깊이를 minimal부터 high까지 4단계로 조절할 수 있는 세분화된 생각 수준 기능이 추가됐다. 할루시네이션은 AA-Omniscience 벤치마크 기준 88%에서 50%로 크게 줄었다. 에이전틱 워크플로우 신뢰성도 향상됐다.
가격 및 접근 방법
가격은 전작과 동일하게 유지됐다. 입력 토큰은 200K 이하 기준 $2/1M, 이상은 $4/1M이며, 출력 토큰은 200K 이하 $12/1M, 이상은 $18/1M이다. Google AI Studio, Vertex AI, Gemini API, NotebookLM, Microsoft Foundry를 통해 이용 가능하다. Deep Think 모드는 Google AI Ultra 구독자에게 제공된다.
Related Articles
Google이 Gemini 3.1 Pro를 출시하며 ARC-AGI-2 벤치마크에서 77.1%를 기록했다. 이전 모델 대비 추론 성능이 2배 이상 향상되었으며, 복잡한 문제 해결을 위한 고급 추론 기능이 개발자와 일반 사용자에게 폭넓게 제공된다.
Google AI Developers가 Android 개발 전용 LLM 평가 체계인 Android Bench를 공개했다. 첫 결과에서는 Gemini 3.1 Pro가 1위를 차지했고, benchmark, dataset, test harness도 함께 공개됐다.
Google의 2026년 2월 Gemini 업데이트는 Gemini 3.1 Pro, Deep Think, Nano Banana 2, Veo Templates, 새 Canvas 기능을 한 번에 묶어 내놓았다. 이번 드롭은 Gemini 앱을 단순 채팅창이 아니라 reasoning, image, music, video workflows의 전면 인터페이스로 밀어 올리려는 전략을 보여준다.
Comments (0)
No comments yet. Be the first to comment!