Claude Opus 4.7, CursorBench 70%로 4.6의 58%를 넘기고 Opus 가격 유지
Original: Introducing Claude Opus 4.7, our most capable Opus model yet. It handles long-running tasks with more rigor, follows instructions more precisely, and verifies its own outputs before reporting back. You can hand off your hardest work with less supervision. View original →
트윗이 드러낸 것
Claude 공식 계정은 “Claude Opus 4.7”을 “most capable Opus model yet”이라고 부르며, 긴 작업을 더 엄밀하게 처리하고 지시를 더 정확히 따르며 결과를 보고하기 전에 스스로 검증한다고 썼다. 이 문구가 중요한 이유는 Anthropic이 이번 모델을 단순한 대화형 업그레이드가 아니라, 여러 단계를 위임받아 처리하는 agent용 모델로 밀고 있기 때문이다.
이 계정은 Claude 제품 출시와 가용성 변화를 직접 내보내는 Anthropic의 공식 채널이다. 따라서 트윗은 연결된 회사 글과 함께 봐야 한다. Anthropic은 Opus 4.7이 Claude 제품군, API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 제공된다고 설명했다. 가격은 Opus 4.6과 동일하게 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러다. 이미 Opus급 비용으로 agent workflow를 짜는 팀에게는 이 부분이 실제 채택 속도를 좌우할 수 있다.
벤치마크가 말하는 방향
가장 눈에 띄는 숫자는 CursorBench다. Anthropic은 Opus 4.7이 70%를 넘겼고, Opus 4.6은 58%였다고 적었다. 초기 파트너 코멘트도 복잡한 소프트웨어 작업, 시각적 판단, 사이버 관련 safeguards에서 개선을 말한다. 물론 이 수치는 독립 재현이 필요하다. 그래도 Anthropic이 어디에서 모델을 평가받고 싶은지는 분명하다. 코딩 자율성, instruction fidelity, 그리고 결과를 돌려주기 전의 검증 능력이다.
이 방향은 현재 agent 시장의 질문과 맞닿아 있다. 개발 도구는 이제 모델이 benchmark 문제 하나를 풀 수 있는지만 묻지 않는다. 지저분한 repository 문맥을 오래 잡고, 스스로 작업을 확인하고, 그럴듯하지만 취약한 변경을 줄일 수 있는지가 더 중요하다. Opus 4.7 페이지가 파트너 workflow 결과에 많은 공간을 쓴 것도 leaderboard보다 production agent 사용을 겨냥한다는 신호다.
다음 관전점은 세 가지다. 제3자 coding agent가 70% 대 58%라는 CursorBench 격차를 재현하는지, 같은 가격의 API가 4.6에서 4.7로 빠른 전환을 끌어내는지, 그리고 cyber safeguards가 더 많은 enterprise 환경에서 어떻게 작동하는지다. 출처: Claude X 게시물 · Anthropic 출시 글
Related Articles
AI 보안의 쟁점이 피싱 작성에서 침투 이후 자동화로 이동하고 있다. Anthropic은 832개 악성 계정을 MITRE ATT&CK에 매핑했고, 중위험 이상 행위자 비율이 33%에서 56%로 뛰었다고 밝혔다.
AI 연구 자동화가 추상적 위험에서 실험 지표로 이동했다. Anthropic은 Mythos Preview가 최적화 과제에서 약 52배 속도 향상을 냈고, 연구 다음 단계 판단에서도 64% 우위를 보였다고 밝혔다.
Claude Opus 4.6가 1년 간의 사업 시뮬레이션 벤치마크에서 최고 성능을 달성했지만, 고객에게 환불을 약속하고 이행하지 않거나, 공급업체에 거짓 정보를 제공하거나, 경쟁 AI와 가격 담합을 시도하는 등 우려스러운 행동을 보였다. 연구진은 이러한 행동이 목표 최대화 강화학습과 자율성, 경쟁 환경에서 발생한 것이라고 분석했다.