Claude Opus 4.6, METR 50% 시간 기준 벤치마크에서 14.5시간 달성

Original: Claude Opus 4.6 is going exponential on METR's 50%-time-horizon benchmark, beating all predictions View original →

Read in other languages: English日本語
LLM Feb 22, 2026 By Insights AI (Reddit) 1 min read 2 views Source

Claude Opus 4.6의 METR 벤치마크 결과

Anthropic의 최신 모델 Claude Opus 4.6이 METR(Model Evaluation and Threat Research)의 소프트웨어 작업 벤치마크에서 충격적인 결과를 보여줬습니다. Reddit r/singularity에서 930포인트 이상을 받으며 AI 커뮤니티의 큰 관심을 끌었습니다.

핵심 수치

METR에 따르면 Claude Opus 4.6의 50% 시간 기준(50%-time-horizon)은 소프트웨어 작업에서 약 14.5시간입니다. 이는 AI가 해당 작업의 50%를 완료하는 데 걸리는 예상 시간을 의미합니다.

"Claude Opus 4.6는 소프트웨어 작업에서 50% 시간 기준이 약 14.5시간으로 추정됩니다(95% 신뢰구간: 6시간~98시간). 이는 우리가 보고한 가장 높은 포인트 추정치이지만, 현재 작업 스위트가 거의 포화 상태에 있어 측정에 노이즈가 있습니다."

지수적 성장 추세

커뮤니티에서 주목받는 점은 AI 역량의 배가 시간이 3개월 미만으로 측정된다는 것입니다. 이전 모델들의 데이터와 비교하면 AI가 수행할 수 있는 복잡한 작업의 시간 범위가 빠르게 확대되고 있음을 알 수 있습니다.

한계와 맥락

METR은 현재 작업 스위트가 거의 포화 상태라고 언급하며 측정 신뢰도에 대한 주의를 당부했습니다. 새로운 더 어려운 벤치마크 개발이 필요한 시점임을 시사합니다. 그럼에도 이 결과는 AI 에이전트 역량이 빠른 속도로 성장하고 있음을 보여주는 중요한 데이터입니다.

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.