Anthropic Opus 에이전트, weak-to-strong 격차 97%까지 회복
Original: Anthropic Fellows research: Automated Alignment Researcher View original →
Anthropic의 4월 14일 X 게시물은 단순한 연구 링크가 아니라 alignment 연구 자동화가 실제 수치로 어디까지 왔는지를 보여준다. 회사는 tweet에서 "developing an Automated Alignment Researcher"라고 쓰며, Claude Opus 4.6가 약한 AI가 강한 AI를 감독하는 문제를 얼마나 빠르게 밀어붙일 수 있는지 실험했다고 설명했다. 게시 시각은 2026년 4월 14일 19:39:26 UTC로, 이번 48시간 창 안에 들어온 신선한 연구 신호다.
핵심은 weak-to-strong supervision이다. 사람 수준의 감독자가 더 강한 모델의 모든 오류를 직접 찾기 어렵다면, 더 약한 모델이나 제한된 감독 신호로 더 강한 모델을 훈련해야 한다. Anthropic의 연결된 연구 글은 Automated Alignment Researcher가 baseline 대비 성능 격차의 97%를 회복했고, 비용은 연구자 시간 기준 약 1/100 수준이었다고 정리한다. 이는 단순한 coding assistant가 아니라 가설 생성, 실험 실행, 결과 해석을 반복하는 장기 연구 에이전트가 alignment 문제에 투입될 수 있음을 보여준다.
AnthropicAI 계정은 Claude 제품 업데이트뿐 아니라 interpretability, alignment, policy 관련 연구를 자주 내보내는 공식 채널이다. 이번 글도 Anthropic Fellows 프로그램의 결과이며, 실험 자료와 코드는 GitHub repository로 공개되어 있다. 공개 코드가 있다는 점은 중요하다. 다른 연구팀이 동일한 weak-to-strong 설정, 자동화된 실험 루프, 비용 산정 방식을 검증할 수 있기 때문이다.
다음 관전점은 재현성이다. 97%라는 숫자가 다른 alignment 과제, 다른 모델 계열, 더 긴 연구 기간에서도 유지되는지 봐야 한다. 또한 자동화된 연구 에이전트가 유효한 방향만 탐색하도록 어떤 평가 장치와 human review가 필요한지도 핵심이다. 원문 source tweet은 여기에서 확인할 수 있다.
Related Articles
Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.
Hacker News에서 OpenClaw의 Anthropic page가 다시 오른 이유는 Claude CLI 재사용 가능 여부보다, subscription·CLI·API 경계가 여전히 불명확하다는 개발자 불안 때문이다.
이번 스레드는 Claude를 정렬 대상이 아니라 정렬 연구 도구로 밀어 넣었다는 점에서 의미가 크다. Anthropic이 연결한 글에 따르면 9개의 Claude Opus 4.6 에이전트가 인간 기준선 PGR 0.23을 0.97까지 끌어올렸고, 누적 연구 시간은 800시간 수준이었다.
Comments (0)
No comments yet. Be the first to comment!