OpenAI, GPT-5.2 공개... 전문 지식 작업에서 인간 전문가 수준 달성
개요
OpenAI가 2026년 2월 GPT-5.2를 공개하며 전문 지식 작업을 위한 가장 강력한 모델 시리즈를 선보였다. GPT-5.2는 스프레드시트 작성, 프레젠테이션 구축, 코드 작성, 이미지 인식, 긴 컨텍스트 이해, 도구 사용, 복잡한 다단계 프로젝트 처리에서 이전 모델을 능가한다.
새 모델은 44개 직업군에 걸친 전문 지식 작업을 측정하는 GDPval 벤치마크에서 산업 전문가를 능가하는 성능을 기록하며 새로운 최고 수준을 세웠다.
주요 특징
컨텍스트 윈도우 확장
GPT-5.2는 400K 토큰 컨텍스트 윈도우를 제공한다(GPT-4의 128K에서 대폭 증가). 이는 약 300페이지 분량의 문서를 한 번에 처리할 수 있는 수준이다.
수학 벤치마크 완전 정복
GPT-5.2는 AIME 2025 수학 벤치마크에서 100% 점수를 달성했다. AIME(American Invitational Mathematics Examination)는 미국의 고난이도 수학 경시대회다.
GPT-5.2 Thinking: 전문가 수준 성능
GPT-5.2 Thinking은 실제 전문 작업을 위한 최고의 모델이다. GDPval 벤치마크에서 GPT-5.2 Thinking은 새로운 최고 점수를 기록했으며, 인간 전문가 수준 이상의 성능을 달성한 첫 번째 모델이다. 구체적으로, GPT-5.2 Thinking은 전문 인간 판정자가 평가한 GDPval 지식 작업에서 업계 최고 전문가와의 비교에서 70.9% 승률을 기록했다.
모델 변형
ChatGPT에서는 GPT-5.2 Instant, Thinking, Pro가 유료 플랜부터 순차 제공된다. API에서는 모든 개발자에게 제공된다.
코딩 특화 모델
- GPT-5.2-Codex: 복잡한 실제 소프트웨어 엔지니어링을 위한 가장 진보된 에이전트형 코딩 모델. 컨텍스트 압축을 통한 장기 작업 개선.
- GPT-5.3-Codex: GPT-5.2-Codex의 프론티어 코딩 성능과 GPT-5.2의 추론 및 전문 지식 능력을 하나의 모델로 결합. 25% 더 빠른 속도.
가용성
GPT-5.2는 현재 OpenAI API 및 ChatGPT를 통해 사용 가능하다. 유료 플랜 사용자부터 순차적으로 롤아웃되고 있다.
업계 영향
GPT-5.2의 출시는 AI가 단순 보조 도구에서 전문 지식 작업의 동등한 파트너로 진화하고 있음을 보여준다. 특히 GDPval에서 인간 전문가를 능가하는 성능은 AI의 경제적 가치 창출 잠재력을 실증한다.
OpenAI는 GPT-5.2를 통해 "사람들이 더 많은 경제적 가치를 창출할 수 있도록" 설계했다고 밝혔다.
Related Articles
OpenAIはFirst Proofの10問すべてに対する証明試行を公開し、専門家のフィードバックに基づいて少なくとも5件が正しい可能性が高いと述べた。通常のbenchmarkを超える長時間 reasoning評価として位置づけている。
OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。
GoogleがGemini 3.1 Proをリリースし、ARC-AGI-2ベンチマークで77.1%を記録。前モデル比2倍以上の推論性能向上を実現し、Deep Thinkレベルの高度な推論機能をすべてのユーザーと開発者に提供開始した。
Comments (0)
No comments yet. Be the first to comment!