Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
생명과학 에이전트의 병목이 모델 성능만이 아니라 데이터 검색 계층에 있다는 증거가 나왔다. Anthropic은 NCBI Virus 작업에서 결정론적 검색 도구를 붙이자 정확도가 거의 100%까지 올랐다고 밝혔다.
NMR 구조 해석은 합성화학의 병목인데, Anthropic은 Opus 4.7이 20개 화합물 평가에서 ChemDraw·MestReNova와 경쟁했다고 밝혔다. 수소 NMR 평균 오차는 약 ±0.079 ppm이었다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.
AI 연구 자동화가 추상적 위험에서 실험 지표로 이동했다. Anthropic은 Mythos Preview가 최적화 과제에서 약 52배 속도 향상을 냈고, 연구 다음 단계 판단에서도 64% 우위를 보였다고 밝혔다.
AI 보안의 쟁점이 피싱 작성에서 침투 이후 자동화로 이동하고 있다. Anthropic은 832개 악성 계정을 MITRE ATT&CK에 매핑했고, 중위험 이상 행위자 비율이 33%에서 56%로 뛰었다고 밝혔다.
ARC Prize가 Opus 4.8을 ARC-AGI-3 새 SOTA로 기록하며 benchmark 경쟁의 기준을 다시 낮은 숫자로 보여줬다. 점수는 1.5%, 비용은 약 $10K로, 향상은 분명하지만 일반 지능과는 아직 거리가 있다.
Claude를 운영하는 Anthropic이 SEC에 비공개 S-1을 제출하면서 IPO 선택권을 확보했다. 최근 650억 달러 Series H와 9,650억 달러 평가 이후라, AI 기업 가치 산정의 공개 검증이 가까워졌다.
Anthropic이 5월 29일 Claude Platform on AWS에 Managed Agents webhooks, multiagent orchestration, self-hosted sandboxes를 열었다. Claude API를 AWS 결제·IAM 안에서 쓰는 흐름이 단순 모델 호출을 넘어 agent 운영 계층으로 확장된다.
Claude 수요를 감당할 자금 전쟁이 한 단계 커졌다. Anthropic은 $65B Series H로 post-money valuation $965B를 찍었고, run-rate revenue가 이달 초 $47B를 넘었다고 밝혔다.
Opus 4.8의 fast mode는 같은 모델을 약 2.5배 빠르게 쓰는 선택지다. Claude 계정은 이전 fast mode보다 가격을 3분의 1로 낮췄다고 밝혔다.