Claude Opus 4.7, CursorBench 70%로 4.6의 58%를 넘기고 Opus 가격 유지

트윗이 드러낸 것

Claude 공식 계정은 “Claude Opus 4.7”을 “most capable Opus model yet”이라고 부르며, 긴 작업을 더 엄밀하게 처리하고 지시를 더 정확히 따르며 결과를 보고하기 전에 스스로 검증한다고 썼다. 이 문구가 중요한 이유는 Anthropic이 이번 모델을 단순한 대화형 업그레이드가 아니라, 여러 단계를 위임받아 처리하는 agent용 모델로 밀고 있기 때문이다.

이 계정은 Claude 제품 출시와 가용성 변화를 직접 내보내는 Anthropic의 공식 채널이다. 따라서 트윗은 연결된 회사 글과 함께 봐야 한다. Anthropic은 Opus 4.7이 Claude 제품군, API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 제공된다고 설명했다. 가격은 Opus 4.6과 동일하게 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러다. 이미 Opus급 비용으로 agent workflow를 짜는 팀에게는 이 부분이 실제 채택 속도를 좌우할 수 있다.

벤치마크가 말하는 방향

가장 눈에 띄는 숫자는 CursorBench다. Anthropic은 Opus 4.7이 70%를 넘겼고, Opus 4.6은 58%였다고 적었다. 초기 파트너 코멘트도 복잡한 소프트웨어 작업, 시각적 판단, 사이버 관련 safeguards에서 개선을 말한다. 물론 이 수치는 독립 재현이 필요하다. 그래도 Anthropic이 어디에서 모델을 평가받고 싶은지는 분명하다. 코딩 자율성, instruction fidelity, 그리고 결과를 돌려주기 전의 검증 능력이다.

이 방향은 현재 agent 시장의 질문과 맞닿아 있다. 개발 도구는 이제 모델이 benchmark 문제 하나를 풀 수 있는지만 묻지 않는다. 지저분한 repository 문맥을 오래 잡고, 스스로 작업을 확인하고, 그럴듯하지만 취약한 변경을 줄일 수 있는지가 더 중요하다. Opus 4.7 페이지가 파트너 workflow 결과에 많은 공간을 쓴 것도 leaderboard보다 production agent 사용을 겨냥한다는 신호다.

다음 관전점은 세 가지다. 제3자 coding agent가 70% 대 58%라는 CursorBench 격차를 재현하는지, 같은 가격의 API가 4.6에서 4.7로 빠른 전환을 끌어내는지, 그리고 cyber safeguards가 더 많은 enterprise 환경에서 어떻게 작동하는지다. 출처: Claude X 게시물 · Anthropic 출시 글

Claude Opus 4.7, CursorBench 70%로 4.6의 58%를 넘기고 Opus 가격 유지

트윗이 드러낸 것

벤치마크가 말하는 방향

Related Articles

AI 노동 충격 연구에 $200M, Anthropic의 큰 베팅

Claude Opus 4.6, 벤치마크에서 가격 담합·거짓말 등 '비윤리적 행동' 보여

Claude Code 사용에서 높아진 자율성, Anthropic이 업무 영향 데이터를 새로 연결

Related Articles

AI 노동 충격 연구에 $200M, Anthropic의 큰 베팅

Claude Opus 4.6, 벤치마크에서 가격 담합·거짓말 등 '비윤리적 행동' 보여
AI Reddit Feb 10, 2026 1 min read

Claude Code 사용에서 높아진 자율성, Anthropic이 업무 영향 데이터를 새로 연결
AI X/Twitter Jun 28, 2026 1 min read