Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
NMR 구조 해석은 합성화학의 병목인데, Anthropic은 Opus 4.7이 20개 화합물 평가에서 ChemDraw·MestReNova와 경쟁했다고 밝혔다. 수소 NMR 평균 오차는 약 ±0.079 ppm이었다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.
AI 연구 자동화가 추상적 위험에서 실험 지표로 이동했다. Anthropic은 Mythos Preview가 최적화 과제에서 약 52배 속도 향상을 냈고, 연구 다음 단계 판단에서도 64% 우위를 보였다고 밝혔다.
Anthropic이 5월 29일 Claude Platform on AWS에 Managed Agents webhooks, multiagent orchestration, self-hosted sandboxes를 열었다. Claude API를 AWS 결제·IAM 안에서 쓰는 흐름이 단순 모델 호출을 넘어 agent 운영 계층으로 확장된다.
Claude 수요를 감당할 자금 전쟁이 한 단계 커졌다. Anthropic은 $65B Series H로 post-money valuation $965B를 찍었고, run-rate revenue가 이달 초 $47B를 넘었다고 밝혔다.
Opus 4.8의 fast mode는 같은 모델을 약 2.5배 빠르게 쓰는 선택지다. Claude 계정은 이전 fast mode보다 가격을 3분의 1로 낮췄다고 밝혔다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
새 Opus는 같은 가격, 더 싼 fast mode, Claude Code의 dynamic workflows로 논점이 좁혀졌다. 커뮤니티 반응은 “대형 발표”보다 실제 agent 작업에서 체감될 개선 폭을 따지는 쪽에 가까웠다.
오염 없는 113개 장기 코딩 과제가 공개 벤치마크의 촘촘한 순위를 흔들었다. DeepSWE에서는 GPT-5.5가 70.0%, Claude Opus 4.7이 54.2%를 기록했다.
Claude Code와 Cowork 같은 에이전트가 실제 업무 권한을 얻으면서, 위험의 초점은 모델 설득이 아니라 실행 환경 통제로 이동했다. Anthropic은 사용자 승인 프롬프트의 93%가 그대로 통과된다는 수치를 근거로 샌드박스와 격리를 전면에 세웠다.