Anthropic, Claude로 weak-to-strong 연구 돌려 PGR 0.97까지 끌어올려

Anthropic의 최신 X 스레드가 중요한 이유는 alignment를 사람이 뒤에서 관리하는 후처리 문제가 아니라, 모델이 직접 연구를 밀어 올릴 수 있는 작업 흐름으로 다뤘기 때문이다. 원문 트윗에서 회사는 “Automated Alignment Researcher”를 전면에 내걸고, 짧은 소개 글과 긴 기술 보고서를 함께 걸었다. 메시지는 단순 홍보보다 훨씬 구체적이다. Claude를 정렬해야 할 대상으로만 두지 않고, weak-to-strong supervision 자체를 개선하는 연구 루프 안으로 넣어 본 것이다.

“New Anthropic Fellows research: developing an Automated Alignment Researcher.”

핵심은 숫자다. Anthropic의 연구 개요에 따르면, 인간 연구자 두 명이 7일 동안 만든 기준선은 performance-gap recovery, 즉 PGR 0.23이었다. 이후 Anthropic은 Claude Opus 4.6 사본 9개에 샌드박스, 공유 포럼, 코드 저장소, 점수 서버를 붙여 병렬로 돌렸고, 추가 5일과 누적 800 연구 시간 뒤 최종 PGR 0.97에 도달했다고 적었다. held-out 과제에서도 가장 성능이 좋았던 방법이 수학에서는 0.94, 코딩에서는 0.47을 기록했는데, 코딩 수치는 여전히 인간 기준선의 약 두 배라고 설명한다.

AnthropicAI 계정은 대체로 안전성 연구나 모델 업데이트를 짧은 스레드로 요약한 뒤 1차 문서로 보내는 용도로 쓰이는데, 이번에도 같은 패턴이다. 함께 연결된 전체 보고서를 보면 중요한 단서도 있다. Claude Sonnet 4를 이용한 production-scale 시험에서는 통계적으로 유의미한 개선이 나오지 않았다. 즉 지금 당장 “모델이 범용 alignment scientist가 됐다”는 이야기는 아니다. 다만 제한된 감독 문제에서 frontier model이 가설을 세우고, 실험을 돌리고, 결과를 비교해 인간 소규모 기준선을 넘겼다는 점은 분명하다.

다음 관전 포인트는 전이 가능성이다. 다른 연구팀이 다른 모델 계열과 데이터셋에서도 수학 0.94, 코딩 0.47 같은 수치를 재현할 수 있는지, 그리고 Anthropic이 이 접근을 실제 학습 파이프라인까지 밀어 넣을 수 있는지가 중요하다. 그 검증이 붙으면 이번 스레드는 단발성 데모가 아니라 자동화된 safety research의 초입으로 읽힐 가능성이 크다. 원문 트윗: AnthropicAI on X via Nitter.

Anthropic, Claude로 weak-to-strong 연구 돌려 PGR 0.97까지 끌어올려

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고

Anthropic, 클로드 협박 행동 원인 규명 — SF 속 AI 악역 데이터가 핵심

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델
일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고
LLM X/Twitter Apr 2, 2026 2 min read

Anthropic, 클로드 협박 행동 원인 규명 — SF 속 AI 악역 데이터가 핵심
LLM May 13, 2026 1 min read