Claude Opus 4.6, METR 50% 시간 기준 벤치마크에서 14.5시간 달성
Original: Claude Opus 4.6 is going exponential on METR's 50%-time-horizon benchmark, beating all predictions View original →
Claude Opus 4.6의 METR 벤치마크 결과
Anthropic의 최신 모델 Claude Opus 4.6이 METR(Model Evaluation and Threat Research)의 소프트웨어 작업 벤치마크에서 충격적인 결과를 보여줬습니다. Reddit r/singularity에서 930포인트 이상을 받으며 AI 커뮤니티의 큰 관심을 끌었습니다.
핵심 수치
METR에 따르면 Claude Opus 4.6의 50% 시간 기준(50%-time-horizon)은 소프트웨어 작업에서 약 14.5시간입니다. 이는 AI가 해당 작업의 50%를 완료하는 데 걸리는 예상 시간을 의미합니다.
"Claude Opus 4.6는 소프트웨어 작업에서 50% 시간 기준이 약 14.5시간으로 추정됩니다(95% 신뢰구간: 6시간~98시간). 이는 우리가 보고한 가장 높은 포인트 추정치이지만, 현재 작업 스위트가 거의 포화 상태에 있어 측정에 노이즈가 있습니다."
지수적 성장 추세
커뮤니티에서 주목받는 점은 AI 역량의 배가 시간이 3개월 미만으로 측정된다는 것입니다. 이전 모델들의 데이터와 비교하면 AI가 수행할 수 있는 복잡한 작업의 시간 범위가 빠르게 확대되고 있음을 알 수 있습니다.
한계와 맥락
METR은 현재 작업 스위트가 거의 포화 상태라고 언급하며 측정 신뢰도에 대한 주의를 당부했습니다. 새로운 더 어려운 벤치마크 개발이 필요한 시점임을 시사합니다. 그럼에도 이 결과는 AI 에이전트 역량이 빠른 속도로 성장하고 있음을 보여주는 중요한 데이터입니다.
Related Articles
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.