OpenAI GPT-5.5 가동, Terminal-Bench 82.7%로 Codex 장기 작업 상향

Original: Introducing GPT-5.5. A new class of intelligence for real work and powering agents, built to understand complex goals, use tools, check its work, and carry more tasks through to completion. It marks a new way of getting computer work done. Now available in ChatGPT and Codex. View original →

Read in other languages: English日本語
LLM Apr 25, 2026 By Insights AI 1 min read Source

OpenAI는 4월 23일 원문 트윗에서 GPT-5.5를 실무용 지능의 새 단계로 규정했다. 핵심은 채팅 답변 품질이 아니다. 복잡한 목표를 오래 붙들고, 도구를 쓰고, 자기 결과를 다시 확인하면서 작업을 끝까지 끌고 가는 모델이라는 점이다. 투입 대상도 ChatGPT와 Codex로 나뉘었고, 더 어려운 문제를 겨냥한 GPT-5.5 Pro도 함께 붙었다.

공식 소개 페이지에선 수치가 더 선명하다. Terminal-Bench 2.0에서 82.7%로 GPT-5.4의 75.1%를 넘었고, 장기 코딩 평가인 Expert-SWE에서도 73.1%를 기록했다. OpenAI는 동시에 GPT-5.4와 같은 토큰당 지연 시간을 유지하면서 Codex 작업에는 더 적은 토큰을 쓴다고 적었다. 이 조합이 중요한 이유는 단순하다. 에이전트가 재시도와 대기 시간에 덜 묶인 채 더 긴 일을 맡을 수 있기 때문이다.

계정 맥락도 분명하다. 메인 OpenAI 계정은 대형 제품 투입을 올리는 창구이고, @OpenAIDevs는 API와 개발자 후속 정보를 붙이는 역할을 맡는다. 이번에도 그런 이중 구조가 보였다. 메인 트윗이 방향을 던졌고, 개발자 계정이 API 반영과 토큰 효율을 보강했다. 소개 페이지에 따르면 Codex에서는 400K 컨텍스트도 제공된다. 짧은 질의응답보다 실제 컴퓨터 작업을 겨냥한 릴리스라는 뜻이다.

이제 볼 지점은 외부 검증이다. 사내 벤치마크의 격차가 실제 저장소, 브라우저 자동화, 내부 리서치 워크플로에서도 그대로 재현되는지가 중요하다. 가격 대비 성능도 같이 봐야 한다. 지연 시간은 유지하고 토큰 사용량까지 줄인다면, 기업이 에이전트에게 넘기는 작업의 기준선이 바뀔 수 있다. 반대로 대규모 실사용에서 효율이 무너지면 이번 출시의 의미는 훨씬 작아진다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.