오염 없는 113개 장기 코딩 과제가 공개 벤치마크의 촘촘한 순위를 흔들었다. DeepSWE에서는 GPT-5.5가 70.0%, Claude Opus 4.7이 54.2%를 기록했다.
오염 없는 113개 장기 코딩 과제가 공개 벤치마크의 촘촘한 순위를 흔들었다. DeepSWE에서는 GPT-5.5가 70.0%, Claude Opus 4.7이 54.2%를 기록했다.
OpenAI가 유럽 사이버보안 팀·기업·정부기관에 GPT-5.5-Cyber 접근을 허용하는 EU 사이버 액션 플랜을 발표했다. Anthropic은 악용 우려를 이유로 더 강력한 Mythos 모델의 EU 제공을 보류 중이다.
GitHub가 GPT-5.5를 Copilot 전면에 올리면서 새 모델 소식이 실제 개발 도구 변화로 넘어왔다. 대상은 Pro+, Business, Enterprise이며, 요청 단가는 7.5배 프리미엄 배수로 붙는다.
왜 중요한가: 코딩 모델 경쟁에서 공용 벤치마크만으로는 실제 체감 차이를 읽기 어려워졌기 때문이다. Cursor는 GPT-5.5가 자체 평가인 CursorBench에서 72.8%로 가장 높았고, 5월 2일까지 가격도 50% 낮춘다고 적었다.
HN은 GPT-5.5 출시 소식을 축하보다 검산으로 받았다. 첫 반응은 얼마나 똑똑한가보다 가격, 컨텍스트 구간, 그리고 코딩 태도가 정말 나아졌는가였다.
중요한 점은 주력 model이 이제 제품 시연이 아니라 실제 integration 대상이 됐다는 데 있다. OpenAI 개발자 계정은 retry 감소를 강조했고, 공식 release page는 1M context와 새 API 가격을 함께 적어 두었다.
중요한 점은 새 model이 개발자가 이미 하루 종일 열어 두는 tool 안으로 들어왔다는 데 있다. GitHub는 GPT-5.5가 복잡한 multi-step coding에서 가장 강한 성능을 보였다고 했고, rollout에는 7.5배 premium request multiplier가 붙었다.
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.
중요한 점은 GPT-5.5 출시 직후 나온 첫 외부 benchmark readout 가운데 하나라는 점이다. Artificial Analysis는 GPT-5.5가 자사 Intelligence Index에서 3점 차 선두로 올라섰지만 전체 지수 실행 비용은 여전히 약 20% 비싸졌다고 적었다.