Claude Opus 4.6, METR 50% 시간 기준 벤치마크에서 14.5시간 달성

Claude Opus 4.6의 METR 벤치마크 결과

Anthropic의 최신 모델 Claude Opus 4.6이 METR(Model Evaluation and Threat Research)의 소프트웨어 작업 벤치마크에서 충격적인 결과를 보여줬습니다. Reddit r/singularity에서 930포인트 이상을 받으며 AI 커뮤니티의 큰 관심을 끌었습니다.

핵심 수치

METR에 따르면 Claude Opus 4.6의 50% 시간 기준(50%-time-horizon)은 소프트웨어 작업에서 약 14.5시간입니다. 이는 AI가 해당 작업의 50%를 완료하는 데 걸리는 예상 시간을 의미합니다.

"Claude Opus 4.6는 소프트웨어 작업에서 50% 시간 기준이 약 14.5시간으로 추정됩니다(95% 신뢰구간: 6시간~98시간). 이는 우리가 보고한 가장 높은 포인트 추정치이지만, 현재 작업 스위트가 거의 포화 상태에 있어 측정에 노이즈가 있습니다."

지수적 성장 추세

커뮤니티에서 주목받는 점은 AI 역량의 배가 시간이 3개월 미만으로 측정된다는 것입니다. 이전 모델들의 데이터와 비교하면 AI가 수행할 수 있는 복잡한 작업의 시간 범위가 빠르게 확대되고 있음을 알 수 있습니다.

한계와 맥락

METR은 현재 작업 스위트가 거의 포화 상태라고 언급하며 측정 신뢰도에 대한 주의를 당부했습니다. 새로운 더 어려운 벤치마크 개발이 필요한 시점임을 시사합니다. 그럼에도 이 결과는 AI 에이전트 역량이 빠른 속도로 성장하고 있음을 보여주는 중요한 데이터입니다.

LLM 1d ago 2 min read

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

#anthropic #claude #coding-agents

LLM Feb 13, 2026 1 min read

Anthropic Claude Opus 4.6 출시, GPT-5.2 능가하는 성능 입증

Anthropic이 Claude Opus 4.6을 공개하며 코딩, 장문 맥락 이해, 지식 업무에서 업계 최고 성능을 달성했습니다.

#anthropic #claude #llm

LLM X/Twitter May 29, 2026 1 min read

Opus 4.8, GDPval-AA에서 GPT-5.5보다 121점 앞선 첫 외부 벤치마크

Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.

#anthropic #claude #benchmark