Google DeepMind, Gemini 3.1 Pro 출시 — ARC-AGI-2 77.1% 달성, 추론 성능 2배 향상
Original: Google DeepMind Releases Gemini 3.1 Pro: 2x Reasoning Boost and Record Benchmark Scores View original →
개요
Google DeepMind가 2026년 2월 19일 Gemini 3.1 Pro를 출시했다. 전작 Gemini 3 Pro 대비 추론 성능이 2배 이상 향상됐으며, ARC-AGI-2에서 77.1%를 달성해 기존 31.1%에서 크게 도약했다. API 가격은 그대로 유지된다.
주요 벤치마크 성능
- ARC-AGI-2: 77.1% (기존 31.1%에서 대폭 향상)
- SWE-bench Verified: 80.6%
- GPQA Diamond: 94.3%
- LiveCodeBench Pro Elo: 2887
- Humanity's Last Exam: 44.4%
- 18개 추적 벤치마크 중 12개에서 1위
주요 기능
- 1M 토큰 컨텍스트: 텍스트, 이미지, 오디오, 비디오 모두 지원
- 세 가지 사고 레벨: Low, Medium, High — 응답 지연과 추론 깊이를 조절 가능
- 64K 출력 토큰: 긴 복잡한 작업에 적합
- 멀티모달: 텍스트, 오디오, 이미지, 비디오, 코드 레포지토리 처리 가능
가격 및 이용
API 가격은 이전 Gemini 3 Pro와 동일하게 입력 100만 토큰당 $2, 출력 100만 토큰당 $12로 유지된다. Gemini API, Vertex AI, Gemini 앱, NotebookLM을 통해 이용 가능하다.
Related Articles
Google DeepMind는 2026년 2월 19일 Gemini 3.1 Pro를 발표했다. 회사는 ARC-AGI-2에서 77.1% 검증 점수를 제시하며, 개발자·기업·일반 사용자 채널에 동시 롤아웃한다고 밝혔다.
Mistral이 2026년 3월 16일 Mistral Small 4를 공개했다. 119B total parameters, 6B active parameters, 256k context window, Apache 2.0, configurable reasoning_effort를 결합해 reasoning·coding·multimodal 작업을 한 모델에 모았다.
Opper가 53개 주요 LLM을 대상으로 "Car Wash" 논리 테스트를 실시했다. "세차장이 50미터 앞에 있는데 걸어갈까, 운전해 갈까?"라는 단순한 질문에 단 11개 모델만 정답을 맞혔다.
Comments (0)
No comments yet. Be the first to comment!