Claude Opus 4.6, METR 50% 시간 기준 벤치마크에서 14.5시간 달성

Claude Opus 4.6의 METR 벤치마크 결과

Anthropic의 최신 모델 Claude Opus 4.6이 METR(Model Evaluation and Threat Research)의 소프트웨어 작업 벤치마크에서 충격적인 결과를 보여줬습니다. Reddit r/singularity에서 930포인트 이상을 받으며 AI 커뮤니티의 큰 관심을 끌었습니다.

핵심 수치

METR에 따르면 Claude Opus 4.6의 50% 시간 기준(50%-time-horizon)은 소프트웨어 작업에서 약 14.5시간입니다. 이는 AI가 해당 작업의 50%를 완료하는 데 걸리는 예상 시간을 의미합니다.

"Claude Opus 4.6는 소프트웨어 작업에서 50% 시간 기준이 약 14.5시간으로 추정됩니다(95% 신뢰구간: 6시간~98시간). 이는 우리가 보고한 가장 높은 포인트 추정치이지만, 현재 작업 스위트가 거의 포화 상태에 있어 측정에 노이즈가 있습니다."

지수적 성장 추세

커뮤니티에서 주목받는 점은 AI 역량의 배가 시간이 3개월 미만으로 측정된다는 것입니다. 이전 모델들의 데이터와 비교하면 AI가 수행할 수 있는 복잡한 작업의 시간 범위가 빠르게 확대되고 있음을 알 수 있습니다.

한계와 맥락

METR은 현재 작업 스위트가 거의 포화 상태라고 언급하며 측정 신뢰도에 대한 주의를 당부했습니다. 새로운 더 어려운 벤치마크 개발이 필요한 시점임을 시사합니다. 그럼에도 이 결과는 AI 에이전트 역량이 빠른 속도로 성장하고 있음을 보여주는 중요한 데이터입니다.

LLM 2d ago 1 min read

Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도

Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.

#anthropic #claude #elections

LLM Hacker News 4d ago 1 min read

OpenClaw와 Claude CLI 재사용 논쟁, HN이 본 문제는 policy의 불투명성

Hacker News에서 OpenClaw의 Anthropic page가 다시 오른 이유는 Claude CLI 재사용 가능 여부보다, subscription·CLI·API 경계가 여전히 불명확하다는 개발자 불안 때문이다.

#anthropic #claude #openclaw

LLM 1d ago 1 min read

Anthropic 사내 장터 실험, Claude 에이전트 69개가 186건 거래를 성사시킨 이유

왜 중요한가: AI 에이전트가 채팅 답변을 넘어 실제 거래 협상으로 들어가고 있기 때문이다. Anthropic은 사내 장터 실험에서 69개 에이전트가 500개 넘는 물품 사이에서 186건의 거래를 마무리했고, 총 거래액은 4,000달러를 조금 넘었다고 공개했다.

#anthropic #claude #agents