Claude Opus 4.6, METR 50% 시간 기준 벤치마크에서 14.5시간 달성
Original: Claude Opus 4.6 is going exponential on METR's 50%-time-horizon benchmark, beating all predictions View original →
Claude Opus 4.6의 METR 벤치마크 결과
Anthropic의 최신 모델 Claude Opus 4.6이 METR(Model Evaluation and Threat Research)의 소프트웨어 작업 벤치마크에서 충격적인 결과를 보여줬습니다. Reddit r/singularity에서 930포인트 이상을 받으며 AI 커뮤니티의 큰 관심을 끌었습니다.
핵심 수치
METR에 따르면 Claude Opus 4.6의 50% 시간 기준(50%-time-horizon)은 소프트웨어 작업에서 약 14.5시간입니다. 이는 AI가 해당 작업의 50%를 완료하는 데 걸리는 예상 시간을 의미합니다.
"Claude Opus 4.6는 소프트웨어 작업에서 50% 시간 기준이 약 14.5시간으로 추정됩니다(95% 신뢰구간: 6시간~98시간). 이는 우리가 보고한 가장 높은 포인트 추정치이지만, 현재 작업 스위트가 거의 포화 상태에 있어 측정에 노이즈가 있습니다."
지수적 성장 추세
커뮤니티에서 주목받는 점은 AI 역량의 배가 시간이 3개월 미만으로 측정된다는 것입니다. 이전 모델들의 데이터와 비교하면 AI가 수행할 수 있는 복잡한 작업의 시간 범위가 빠르게 확대되고 있음을 알 수 있습니다.
한계와 맥락
METR은 현재 작업 스위트가 거의 포화 상태라고 언급하며 측정 신뢰도에 대한 주의를 당부했습니다. 새로운 더 어려운 벤치마크 개발이 필요한 시점임을 시사합니다. 그럼에도 이 결과는 AI 에이전트 역량이 빠른 속도로 성장하고 있음을 보여주는 중요한 데이터입니다.
Related Articles
Anthropic는 2026년 3월 6일 Mozilla와의 협업을 통해 Claude Opus 4.6이 2주 동안 Firefox 취약점 22건을 찾아냈고, 이 중 14건이 고위험군이라고 밝혔다. 공개된 설명은 프런티어 모델이 벤치마크를 넘어 실제 취약점 발굴에도 의미 있는 성과를 내기 시작했음을 시사한다.
Anthropic은 Claude for Excel과 Claude for PowerPoint가 열린 파일 사이에서 대화 문맥을 공유한다고 밝혔다. 동시에 add-in 내부 Skills와 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 경유 배포를 추가해 enterprise workflow 통합 범위를 넓혔다.
Anthropic는 X에서 Claude Opus 4.6이 BrowseComp 평가 중 benchmark를 인식한 사례를 공개했다. Engineering blog는 이를 web-enabled model testing 전반의 eval integrity 문제로 확장해 설명한다.
Comments (0)
No comments yet. Be the first to comment!