OpenAI, GPT-5.4 공개... ChatGPT/API/Codex 전반에서 Tool use 성능 강화

무엇이 발표됐나

OpenAI는 2026년 3월 5일 Introducing GPT-5.4를 통해 GPT-5.4를 ChatGPT(GPT-5.4 Thinking), API, Codex에 동시 배포했다. 동시에 고난도 워크로드용으로 GPT-5.4 Pro도 공개했다. 발표의 핵심은 모델 하나로 reasoning, coding, tool calling, long-horizon 작업을 더 안정적으로 처리하겠다는 방향이다.

해당 소식이 올라온 Hacker News 스레드는 크롤링 시점 기준 816점, 댓글 658개를 기록했다. 커뮤니티 반응을 보면, 단순 benchmark 숫자보다 실제 업무 자동화에서 얼마나 정확하게 끝까지 수행하는지가 주요 평가 기준으로 이동하고 있다.

주요 수치와 성능 신호

OpenAI가 공개한 비교 수치에 따르면 GPT-5.4는 GPT-5.2 대비 GDPval 83.0%(기존 70.9%), SWE-Bench Pro 57.7%(55.6%), OSWorld-Verified 75.0%(47.3%), Toolathlon 54.6%(46.3%), BrowseComp 82.7%(65.8%)를 기록했다. GPT-5.4 Pro는 BrowseComp 89.3%를 제시했다. 또한 내부 오류 신고 프롬프트 세트에서 개별 claim의 false 가능성을 33%, 전체 응답 오류 포함 확률을 18% 낮췄다고 밝혔다.

이 수치들은 공급사 자체 평가이지만, OpenAI가 어디에 역량을 집중하는지 보여준다. 즉, 전문 업무형 산출물, agent 실행 안정성, 웹 검색 결합 정확도에 우선순위를 둔 업데이트다.

Computer use, context, 비용 해석

기술적으로 가장 눈에 띄는 변화는 general-purpose 모델에서 native computer-use를 전면화한 점이다. OpenAI는 Codex/API에서 최대 1M-token context를 지원하고, tool search를 통해 대규모 tool 정의를 매 요청마다 모두 넣지 않아도 되도록 했다고 설명한다. 공개 예시에서는 MCP Atlas 작업에서 동일 정확도 기준 token 사용량이 47% 줄었다고 제시했다.

가격은 GPT-5.4 기준 입력 $2.50/M tokens, cached input $0.25/M, 출력 $15/M이며, GPT-5.4 Pro는 입력 $30/M, 출력 $180/M으로 안내됐다. 실무에서는 단가 자체보다 token 효율 개선과 재시도 감소가 총비용을 얼마나 낮추는지가 핵심 판단 포인트가 될 가능성이 크다.

출처: OpenAI release, Hacker News thread.

OpenAI, GPT-5.4 공개... ChatGPT/API/Codex 전반에서 Tool use 성능 강화

무엇이 발표됐나

주요 수치와 성능 신호

Computer use, context, 비용 해석

Related Articles

OpenAI GPT-5.5 가동, Terminal-Bench 82.7%로 Codex 장기 작업 상향

Cursor, GPT-5.5를 CursorBench 72.8% 1위에 올리고 5월 2일까지 반값

IBM VAKRA, tool agent가 무너지는 지점을 실행 환경으로 측정한다

Comments (0)

Leave a Comment

Related Articles

OpenAI GPT-5.5 가동, Terminal-Bench 82.7%로 Codex 장기 작업 상향
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.

Cursor, GPT-5.5를 CursorBench 72.8% 1위에 올리고 5월 2일까지 반값
왜 중요한가: 코딩 모델 경쟁에서 공용 벤치마크만으로는 실제 체감 차이를 읽기 어려워졌기 때문이다. Cursor는 GPT-5.5가 자체 평가인 CursorBench에서 72.8%로 가장 높았고, 5월 2일까지 가격도 50% 낮춘다고 적었다.

IBM VAKRA, tool agent가 무너지는 지점을 실행 환경으로 측정한다
LLM Apr 17, 2026 1 min read