Google, Gemini 3.1 Pro 출시 — ARC-AGI-2 77.1% 달성, 추론 성능 2배 향상
Google DeepMind, Gemini 3.1 Pro 정식 출시
Google DeepMind가 2026년 2월 19일 Gemini 3.1 Pro를 정식 출시했다. Gemini 3 시리즈의 최신 버전으로, 복잡한 추론과 멀티모달 이해 능력이 대폭 강화됐다.
주요 벤치마크 성과
Gemini 3.1 Pro는 AI 추론 능력의 핵심 지표인 ARC-AGI-2에서 77.1%를 기록해, 전작 Gemini 3 Pro의 31.1%보다 2배 이상 향상됐다. 코딩 벤치마크인 SWE-Bench Verified에서는 80.6%, 과학 추론을 평가하는 GPQA Diamond에서는 94.3%를 달성했다. Terminal-Bench 2.0에서는 68.5%를 기록했다.
기술 사양
100만 토큰의 입력 컨텍스트 창을 지원해 1,500페이지 이상의 텍스트나 전체 코드 저장소를 단일 프롬프트로 처리할 수 있다. 최대 출력 토큰은 65,536개다. 텍스트, 이미지, 오디오, 비디오, 코드를 아우르는 네이티브 멀티모달 처리 능력을 갖췄다.
핵심 개선 사항
추론의 깊이를 minimal부터 high까지 4단계로 조절할 수 있는 세분화된 생각 수준 기능이 추가됐다. 할루시네이션은 AA-Omniscience 벤치마크 기준 88%에서 50%로 크게 줄었다. 에이전틱 워크플로우 신뢰성도 향상됐다.
가격 및 접근 방법
가격은 전작과 동일하게 유지됐다. 입력 토큰은 200K 이하 기준 $2/1M, 이상은 $4/1M이며, 출력 토큰은 200K 이하 $12/1M, 이상은 $18/1M이다. Google AI Studio, Vertex AI, Gemini API, NotebookLM, Microsoft Foundry를 통해 이용 가능하다. Deep Think 모드는 Google AI Ultra 구독자에게 제공된다.
Related Articles
Google이 Gemini 3.1 Pro를 출시하며 ARC-AGI-2 벤치마크에서 77.1%를 기록했다. 이전 모델 대비 추론 성능이 2배 이상 향상되었으며, 복잡한 문제 해결을 위한 고급 추론 기능이 개발자와 일반 사용자에게 폭넓게 제공된다.
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
HN은 leaderboard 숫자만 보고 움직이지 않았다. Dirac가 더 적은 토큰, hash-anchored edit, AST 기반 문맥 선택으로 coding agent 성능을 끌어올렸다는 주장에 시선이 몰렸다.
Comments (0)
No comments yet. Be the first to comment!