Reddit 화제: Gemini 3 Deep Think 업그레이드, 과학·공학 추론 지표 공개
Original: Google upgraded Gemini-3 DeepThink: Advancing science, research and engineering View original →
Reddit에서 확산된 Deep Think 업데이트
r/singularity 게시물은 Google의 "Gemini 3 Deep Think" 업그레이드 발표를 빠르게 공유했다. 확인 시점 기준 해당 글은 score 675, comments 51을 기록했다. 원문은 Google 공식 블로그 Gemini 3 Deep Think 포스트이며, 과학·연구·엔지니어링 문제 해결을 위한 특화 추론 모드를 전면 업데이트했다는 내용이다.
공식 발표에서 제시한 수치
Google은 이번 업데이트에서 학술·경쟁형 벤치마크 성능을 구체적으로 공개했다. 대표적으로 Humanity’s Last Exam에서 tools 없이 48.4%, ARC-AGI-2에서 84.6%(ARC Prize Foundation 확인), Codeforces에서 Elo 3455를 제시했다. 또한 International Math Olympiad 2025에서 gold-medal level 성능을 언급했다. 수학·코딩 외에도 2025 International Physics Olympiad와 Chemistry Olympiad의 written section, CMT-Benchmark 50.5% 등 과학 영역 지표를 함께 제시했다.
접근성 및 활용 시나리오
공식 글에 따르면 업데이트된 Deep Think는 Google AI Ultra 구독자에게 Gemini 앱에서 즉시 제공된다. 동시에 연구자·엔지니어·기업 대상 Gemini API early access 신청도 열렸다. 사례로는 Rutgers University 수학 연구에서 논리 결함 탐지, Duke University Wang Lab의 반도체 소재 관련 박막 성장 레시피 설계(100 μm 이상 목표) 등이 소개됐다. 즉, 단순 질의응답이 아니라 연구 워크플로에 연결되는 사용 시나리오를 강조한 발표다.
커뮤니티 관점의 포인트
이 Reddit 스레드가 주목받은 이유는 두 가지다. 첫째, 모델 성능을 "일반 점수"가 아니라 과학·엔지니어링 작업 맥락에서 제시했다는 점. 둘째, API 경로를 함께 공개해 평가와 제품화를 바로 연결할 수 있게 했다는 점이다. 실제 도입 단계에서는 벤치마크 숫자 자체보다, 특정 도메인에서 재현 가능한 검증 절차와 실패 분석 체계를 같이 갖추는 것이 중요하다. 이번 발표는 frontier reasoning 모델이 연구 도구 체인으로 들어오는 속도가 더 빨라졌음을 보여준다.
Related Articles
중요한 점은 GPT-5.5 출시 직후 나온 첫 외부 benchmark readout 가운데 하나라는 점이다. Artificial Analysis는 GPT-5.5가 자사 Intelligence Index에서 3점 차 선두로 올라섰지만 전체 지수 실행 비용은 여전히 약 20% 비싸졌다고 적었다.
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
중요한 점은 open-weight 27B dense 모델이 훨씬 큰 코딩 시스템과 agent task에서 직접 비교되고 있다는 데 있다. Qwen 모델 카드는 Qwen3.6-27B의 SWE-bench Verified를 77.2, Qwen3.5-397B-A17B를 76.2로 적었고 라이선스는 Apache 2.0이다.
Comments (0)
No comments yet. Be the first to comment!