Claude Opus 4.7, CursorBench 70%로 4.6의 58%를 넘기고 Opus 가격 유지
Original: Introducing Claude Opus 4.7, our most capable Opus model yet. It handles long-running tasks with more rigor, follows instructions more precisely, and verifies its own outputs before reporting back. You can hand off your hardest work with less supervision. View original →
트윗이 드러낸 것
Claude 공식 계정은 “Claude Opus 4.7”을 “most capable Opus model yet”이라고 부르며, 긴 작업을 더 엄밀하게 처리하고 지시를 더 정확히 따르며 결과를 보고하기 전에 스스로 검증한다고 썼다. 이 문구가 중요한 이유는 Anthropic이 이번 모델을 단순한 대화형 업그레이드가 아니라, 여러 단계를 위임받아 처리하는 agent용 모델로 밀고 있기 때문이다.
이 계정은 Claude 제품 출시와 가용성 변화를 직접 내보내는 Anthropic의 공식 채널이다. 따라서 트윗은 연결된 회사 글과 함께 봐야 한다. Anthropic은 Opus 4.7이 Claude 제품군, API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 제공된다고 설명했다. 가격은 Opus 4.6과 동일하게 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러다. 이미 Opus급 비용으로 agent workflow를 짜는 팀에게는 이 부분이 실제 채택 속도를 좌우할 수 있다.
벤치마크가 말하는 방향
가장 눈에 띄는 숫자는 CursorBench다. Anthropic은 Opus 4.7이 70%를 넘겼고, Opus 4.6은 58%였다고 적었다. 초기 파트너 코멘트도 복잡한 소프트웨어 작업, 시각적 판단, 사이버 관련 safeguards에서 개선을 말한다. 물론 이 수치는 독립 재현이 필요하다. 그래도 Anthropic이 어디에서 모델을 평가받고 싶은지는 분명하다. 코딩 자율성, instruction fidelity, 그리고 결과를 돌려주기 전의 검증 능력이다.
이 방향은 현재 agent 시장의 질문과 맞닿아 있다. 개발 도구는 이제 모델이 benchmark 문제 하나를 풀 수 있는지만 묻지 않는다. 지저분한 repository 문맥을 오래 잡고, 스스로 작업을 확인하고, 그럴듯하지만 취약한 변경을 줄일 수 있는지가 더 중요하다. Opus 4.7 페이지가 파트너 workflow 결과에 많은 공간을 쓴 것도 leaderboard보다 production agent 사용을 겨냥한다는 신호다.
다음 관전점은 세 가지다. 제3자 coding agent가 70% 대 58%라는 CursorBench 격차를 재현하는지, 같은 가격의 API가 4.6에서 4.7로 빠른 전환을 끌어내는지, 그리고 cyber safeguards가 더 많은 enterprise 환경에서 어떻게 작동하는지다. 출처: Claude X 게시물 · Anthropic 출시 글
Related Articles
Claude는 2026년 4월 9일 Cowork가 Claude Desktop의 macOS·Windows 환경에서 모든 유료 플랜에 general availability로 제공된다고 밝혔다. Anthropic release notes에 따르면 Analytics API 노출, usage analytics, OpenTelemetry 지원, SCIM 그룹과 spend limit를 포함한 enterprise role-based access controls가 함께 추가된다.
Anthropic는 2027년부터 가동될 multiple gigawatts 규모의 차세대 TPU capacity를 위해 Google과 Broadcom과 새 계약을 맺었다고 밝혔다. 회사는 이를 Claude 수요 급증과 enterprise 고객 확대에 대응하는 최대 compute 약속으로 규정했다.
Anthropic는 2026년 4월 2일 Responsible Scaling Policy 페이지를 업데이트하며 policy 버전을 3.1로 조정했다. 핵심은 AI R&D threshold 문구를 더 명확히 하고, RSP가 명시적으로 요구하지 않더라도 필요하면 development pause를 선택할 수 있음을 분명히 한 점이다.
Comments (0)
No comments yet. Be the first to comment!