Claude Fable 5, GDPval-AA 1932점으로 에이전트 업무 벤치마크 선두

GDPval-AA 1932점이 만든 신호

Claude Fable 5가 에이전트형 실제 지식 업무 평가에서 1932점을 기록하며 GDPval-AA 1위에 올랐다. Artificial Analysis는 X에서 이 모델이 "scores 1932 on GDPval-AA"라고 쓰며, 같은 기초 모델을 쓰는 Claude Mythos 5에 보안 가드레일을 더한 공개형 모델이라고 설명했다. 원문 트윗은 여기에서 확인할 수 있다.

이 수치가 중요한 이유는 단일 질의응답보다 긴 작업을 얼마나 안정적으로 밀고 가는지가 프런티어 모델 경쟁의 핵심 지표가 되고 있기 때문이다. Artificial Analysis는 Anthropic이 공개 전 접근권을 제공해 벤치마크를 진행했다고 밝혔고, Fable 5가 상위권에서 Anthropic 모델 3개를 만들었다고 썼다. 해당 평가는 적응형 추론을 최대 강도로 사용했고, 위험 가능성이 있는 요청은 Claude Opus 4.8로 우회하는 설정을 포함했다.

Anthropic의 공식 설명도 같은 방향을 뒷받침한다. 회사는 Fable 5를 일반 사용이 가능하도록 조정한 Mythos급 모델로 소개하며, 소프트웨어 엔지니어링, 지식 업무, 비전, 과학 연구에서 이전 일반 제공 모델보다 강하다고 설명한다. 가격은 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러이며, 안전 모니터링을 위해 30일 데이터 보관이 요구된다.

다음 관전 지점은 이 점수가 실제 개발·리서치 워크플로에서 얼마나 재현되는지다. 특히 보안·생물학·화학·증류 관련 요청이 Opus 4.8로 우회되는 비율이 Anthropic이 말한 평균 5% 미만에 머무를지, 아니면 특정 전문 업무에서 더 자주 나타날지가 초기 채택의 핵심 변수가 된다.

Claude Fable 5, GDPval-AA 1932점으로 에이전트 업무 벤치마크 선두

GDPval-AA 1932점이 만든 신호

Related Articles

Opus 4.8, GDPval-AA에서 GPT-5.5보다 121점 앞선 첫 외부 벤치마크

Claude Sonnet 5, Opus급 agent 성능을 Free·Pro 기본 모델로

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델