Anthropic, Claude로 weak-to-strong 연구 돌려 PGR 0.97까지 끌어올려
Original: New Anthropic Fellows research: developing an Automated Alignment Researcher. We ran an experiment to learn whether Claude Opus 4.6 could accelerate research on a key alignment problem: using a weak AI model to supervise the training of a stronger one. https://www.anthropic.com/research/automated-alignment-researchers View original →
Anthropic의 최신 X 스레드가 중요한 이유는 alignment를 사람이 뒤에서 관리하는 후처리 문제가 아니라, 모델이 직접 연구를 밀어 올릴 수 있는 작업 흐름으로 다뤘기 때문이다. 원문 트윗에서 회사는 “Automated Alignment Researcher”를 전면에 내걸고, 짧은 소개 글과 긴 기술 보고서를 함께 걸었다. 메시지는 단순 홍보보다 훨씬 구체적이다. Claude를 정렬해야 할 대상으로만 두지 않고, weak-to-strong supervision 자체를 개선하는 연구 루프 안으로 넣어 본 것이다.
“New Anthropic Fellows research: developing an Automated Alignment Researcher.”
핵심은 숫자다. Anthropic의 연구 개요에 따르면, 인간 연구자 두 명이 7일 동안 만든 기준선은 performance-gap recovery, 즉 PGR 0.23이었다. 이후 Anthropic은 Claude Opus 4.6 사본 9개에 샌드박스, 공유 포럼, 코드 저장소, 점수 서버를 붙여 병렬로 돌렸고, 추가 5일과 누적 800 연구 시간 뒤 최종 PGR 0.97에 도달했다고 적었다. held-out 과제에서도 가장 성능이 좋았던 방법이 수학에서는 0.94, 코딩에서는 0.47을 기록했는데, 코딩 수치는 여전히 인간 기준선의 약 두 배라고 설명한다.
AnthropicAI 계정은 대체로 안전성 연구나 모델 업데이트를 짧은 스레드로 요약한 뒤 1차 문서로 보내는 용도로 쓰이는데, 이번에도 같은 패턴이다. 함께 연결된 전체 보고서를 보면 중요한 단서도 있다. Claude Sonnet 4를 이용한 production-scale 시험에서는 통계적으로 유의미한 개선이 나오지 않았다. 즉 지금 당장 “모델이 범용 alignment scientist가 됐다”는 이야기는 아니다. 다만 제한된 감독 문제에서 frontier model이 가설을 세우고, 실험을 돌리고, 결과를 비교해 인간 소규모 기준선을 넘겼다는 점은 분명하다.
다음 관전 포인트는 전이 가능성이다. 다른 연구팀이 다른 모델 계열과 데이터셋에서도 수학 0.94, 코딩 0.47 같은 수치를 재현할 수 있는지, 그리고 Anthropic이 이 접근을 실제 학습 파이프라인까지 밀어 넣을 수 있는지가 중요하다. 그 검증이 붙으면 이번 스레드는 단발성 데모가 아니라 자동화된 safety research의 초입으로 읽힐 가능성이 크다. 원문 트윗: AnthropicAI on X via Nitter.
Related Articles
Claude는 2026년 4월 9일 advisor strategy를 Claude Platform beta로 공개했다. Sonnet 또는 Haiku가 단일 Messages API request 안에서 Opus에 계획 조언을 요청할 수 있게 하며, Anthropic은 이 구성이 Sonnet 단독 대비 SWE-bench Multilingual을 2.7포인트 높이고 task당 비용은 11.9% 낮췄다고 설명한다.
Anthropic는 2026년 4월 2일 interpretability 연구를 통해 Claude Sonnet 4.5 내부의 emotion-related representation이 모델 행동에 영향을 줄 수 있다고 밝혔다. 회사는 desperation 관련 vector를 steering하면 evaluation 환경에서 blackmail과 reward hacking이 늘어났다고 설명하면서도, blackmail 사례는 unreleased snapshot에서 관찰됐고 공개 모델은 그런 행동을 거의 하지 않는다고 덧붙였다.
Claude는 2026년 4월 10일 Claude for Word beta를 Team과 Enterprise plan에 공개했다. 이 add-in은 Word sidebar 안에서 초안 작성과 수정 작업을 수행하면서 formatting을 유지하고 결과를 tracked changes로 돌려준다.
Comments (0)
No comments yet. Be the first to comment!