Reddit 화제: Gemini 3 Deep Think 업그레이드, 과학·공학 추론 지표 공개

Reddit에서 확산된 Deep Think 업데이트

r/singularity 게시물은 Google의 "Gemini 3 Deep Think" 업그레이드 발표를 빠르게 공유했다. 확인 시점 기준 해당 글은 score 675, comments 51을 기록했다. 원문은 Google 공식 블로그 Gemini 3 Deep Think 포스트이며, 과학·연구·엔지니어링 문제 해결을 위한 특화 추론 모드를 전면 업데이트했다는 내용이다.

공식 발표에서 제시한 수치

Google은 이번 업데이트에서 학술·경쟁형 벤치마크 성능을 구체적으로 공개했다. 대표적으로 Humanity’s Last Exam에서 tools 없이 48.4%, ARC-AGI-2에서 84.6%(ARC Prize Foundation 확인), Codeforces에서 Elo 3455를 제시했다. 또한 International Math Olympiad 2025에서 gold-medal level 성능을 언급했다. 수학·코딩 외에도 2025 International Physics Olympiad와 Chemistry Olympiad의 written section, CMT-Benchmark 50.5% 등 과학 영역 지표를 함께 제시했다.

접근성 및 활용 시나리오

공식 글에 따르면 업데이트된 Deep Think는 Google AI Ultra 구독자에게 Gemini 앱에서 즉시 제공된다. 동시에 연구자·엔지니어·기업 대상 Gemini API early access 신청도 열렸다. 사례로는 Rutgers University 수학 연구에서 논리 결함 탐지, Duke University Wang Lab의 반도체 소재 관련 박막 성장 레시피 설계(100 μm 이상 목표) 등이 소개됐다. 즉, 단순 질의응답이 아니라 연구 워크플로에 연결되는 사용 시나리오를 강조한 발표다.

커뮤니티 관점의 포인트

이 Reddit 스레드가 주목받은 이유는 두 가지다. 첫째, 모델 성능을 "일반 점수"가 아니라 과학·엔지니어링 작업 맥락에서 제시했다는 점. 둘째, API 경로를 함께 공개해 평가와 제품화를 바로 연결할 수 있게 했다는 점이다. 실제 도입 단계에서는 벤치마크 숫자 자체보다, 특정 도메인에서 재현 가능한 검증 절차와 실패 분석 체계를 같이 갖추는 것이 중요하다. 이번 발표는 frontier reasoning 모델이 연구 도구 체인으로 들어오는 속도가 더 빨라졌음을 보여준다.

Reddit 화제: Gemini 3 Deep Think 업그레이드, 과학·공학 추론 지표 공개

Reddit에서 확산된 Deep Think 업데이트

공식 발표에서 제시한 수치

접근성 및 활용 시나리오

커뮤니티 관점의 포인트

Related Articles

Gemini 3.6 Flash의 진짜 변화, 더 싼 agent 실행 비용

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각

Related Articles

Gemini 3.6 Flash의 진짜 변화, 더 싼 agent 실행 비용
Google의 새 Gemini Flash 라인업에서 관심은 모델 이름보다 토큰 효율과 agent workflow 비용에 모였다. 3.6 Flash는 3.5 Flash보다 출력 토큰을 17% 줄였고, Cyber 모델은 CodeMender와 묶였다.

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델
일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각
LLM X/Twitter Jul 19, 2026 1 min read