Reddit 화제: Gemini 3 Deep Think 업그레이드, 과학·공학 추론 지표 공개
Original: Google upgraded Gemini-3 DeepThink: Advancing science, research and engineering View original →
Reddit에서 확산된 Deep Think 업데이트
r/singularity 게시물은 Google의 "Gemini 3 Deep Think" 업그레이드 발표를 빠르게 공유했다. 확인 시점 기준 해당 글은 score 675, comments 51을 기록했다. 원문은 Google 공식 블로그 Gemini 3 Deep Think 포스트이며, 과학·연구·엔지니어링 문제 해결을 위한 특화 추론 모드를 전면 업데이트했다는 내용이다.
공식 발표에서 제시한 수치
Google은 이번 업데이트에서 학술·경쟁형 벤치마크 성능을 구체적으로 공개했다. 대표적으로 Humanity’s Last Exam에서 tools 없이 48.4%, ARC-AGI-2에서 84.6%(ARC Prize Foundation 확인), Codeforces에서 Elo 3455를 제시했다. 또한 International Math Olympiad 2025에서 gold-medal level 성능을 언급했다. 수학·코딩 외에도 2025 International Physics Olympiad와 Chemistry Olympiad의 written section, CMT-Benchmark 50.5% 등 과학 영역 지표를 함께 제시했다.
접근성 및 활용 시나리오
공식 글에 따르면 업데이트된 Deep Think는 Google AI Ultra 구독자에게 Gemini 앱에서 즉시 제공된다. 동시에 연구자·엔지니어·기업 대상 Gemini API early access 신청도 열렸다. 사례로는 Rutgers University 수학 연구에서 논리 결함 탐지, Duke University Wang Lab의 반도체 소재 관련 박막 성장 레시피 설계(100 μm 이상 목표) 등이 소개됐다. 즉, 단순 질의응답이 아니라 연구 워크플로에 연결되는 사용 시나리오를 강조한 발표다.
커뮤니티 관점의 포인트
이 Reddit 스레드가 주목받은 이유는 두 가지다. 첫째, 모델 성능을 "일반 점수"가 아니라 과학·엔지니어링 작업 맥락에서 제시했다는 점. 둘째, API 경로를 함께 공개해 평가와 제품화를 바로 연결할 수 있게 했다는 점이다. 실제 도입 단계에서는 벤치마크 숫자 자체보다, 특정 도메인에서 재현 가능한 검증 절차와 실패 분석 체계를 같이 갖추는 것이 중요하다. 이번 발표는 frontier reasoning 모델이 연구 도구 체인으로 들어오는 속도가 더 빨라졌음을 보여준다.
Related Articles
Google은 Gemini in Google Sheets가 전체 SpreadsheetBench에서 70.48%를 기록해 human expert 수준에 근접했다고 밝혔다. 회사는 이 결과가 product-specific tuning과 강화된 verbalization, coding capability에서 나왔다고 설명했다.
벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.
Google이 에이전트 워크플로우에 최적화된 Gemini 3.5 Flash를 출시했다. 타 프론티어 모델 대비 4배 빠른 출력 속도와 절반 이하의 비용을 제공하며 코딩·멀티모달·추론 벤치마크에서 최상위권을 기록했다.