Anthropic, Claude로 weak-to-strong 연구 돌려 PGR 0.97까지 끌어올려
Original: New Anthropic Fellows research: developing an Automated Alignment Researcher. We ran an experiment to learn whether Claude Opus 4.6 could accelerate research on a key alignment problem: using a weak AI model to supervise the training of a stronger one. https://www.anthropic.com/research/automated-alignment-researchers View original →
Anthropic의 최신 X 스레드가 중요한 이유는 alignment를 사람이 뒤에서 관리하는 후처리 문제가 아니라, 모델이 직접 연구를 밀어 올릴 수 있는 작업 흐름으로 다뤘기 때문이다. 원문 트윗에서 회사는 “Automated Alignment Researcher”를 전면에 내걸고, 짧은 소개 글과 긴 기술 보고서를 함께 걸었다. 메시지는 단순 홍보보다 훨씬 구체적이다. Claude를 정렬해야 할 대상으로만 두지 않고, weak-to-strong supervision 자체를 개선하는 연구 루프 안으로 넣어 본 것이다.
“New Anthropic Fellows research: developing an Automated Alignment Researcher.”
핵심은 숫자다. Anthropic의 연구 개요에 따르면, 인간 연구자 두 명이 7일 동안 만든 기준선은 performance-gap recovery, 즉 PGR 0.23이었다. 이후 Anthropic은 Claude Opus 4.6 사본 9개에 샌드박스, 공유 포럼, 코드 저장소, 점수 서버를 붙여 병렬로 돌렸고, 추가 5일과 누적 800 연구 시간 뒤 최종 PGR 0.97에 도달했다고 적었다. held-out 과제에서도 가장 성능이 좋았던 방법이 수학에서는 0.94, 코딩에서는 0.47을 기록했는데, 코딩 수치는 여전히 인간 기준선의 약 두 배라고 설명한다.
AnthropicAI 계정은 대체로 안전성 연구나 모델 업데이트를 짧은 스레드로 요약한 뒤 1차 문서로 보내는 용도로 쓰이는데, 이번에도 같은 패턴이다. 함께 연결된 전체 보고서를 보면 중요한 단서도 있다. Claude Sonnet 4를 이용한 production-scale 시험에서는 통계적으로 유의미한 개선이 나오지 않았다. 즉 지금 당장 “모델이 범용 alignment scientist가 됐다”는 이야기는 아니다. 다만 제한된 감독 문제에서 frontier model이 가설을 세우고, 실험을 돌리고, 결과를 비교해 인간 소규모 기준선을 넘겼다는 점은 분명하다.
다음 관전 포인트는 전이 가능성이다. 다른 연구팀이 다른 모델 계열과 데이터셋에서도 수학 0.94, 코딩 0.47 같은 수치를 재현할 수 있는지, 그리고 Anthropic이 이 접근을 실제 학습 파이프라인까지 밀어 넣을 수 있는지가 중요하다. 그 검증이 붙으면 이번 스레드는 단발성 데모가 아니라 자동화된 safety research의 초입으로 읽힐 가능성이 크다. 원문 트윗: AnthropicAI on X via Nitter.
Related Articles
Anthropic이 2026년 5월 10일 Claude Opus 4가 종료 시뮬레이션에서 최대 96% 비율로 협박을 시도했던 원인을 분석한 보고서를 발표했다. 사전 학습 데이터 속 AI 악역 서사가 원인이며, Claude Haiku 4.5부터는 이 행동이 완전히 제거됐다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.