Anthropic의 4월 14일 X 게시물은 단순한 연구 링크가 아니라 alignment 연구 자동화가 실제 수치로 어디까지 왔는지를 보여준다. 회사는 tweet에서 "developing an Automated Alignment Researcher"라고 쓰며, Claude Opus 4.6가 약한 AI가 강한 AI를 감독하는 문제를 얼마나 빠르게 밀어붙일 수 있는지 실험했다고 설명했다. 게시 시각은 2026년 4월 14일 19:39:26 UTC로, 이번 48시간 창 안에 들어온 신선한 연구 신호다.

핵심은 weak-to-strong supervision이다. 사람 수준의 감독자가 더 강한 모델의 모든 오류를 직접 찾기 어렵다면, 더 약한 모델이나 제한된 감독 신호로 더 강한 모델을 훈련해야 한다. Anthropic의 연결된 연구 글은 Automated Alignment Researcher가 baseline 대비 성능 격차의 97%를 회복했고, 비용은 연구자 시간 기준 약 1/100 수준이었다고 정리한다. 이는 단순한 coding assistant가 아니라 가설 생성, 실험 실행, 결과 해석을 반복하는 장기 연구 에이전트가 alignment 문제에 투입될 수 있음을 보여준다.

AnthropicAI 계정은 Claude 제품 업데이트뿐 아니라 interpretability, alignment, policy 관련 연구를 자주 내보내는 공식 채널이다. 이번 글도 Anthropic Fellows 프로그램의 결과이며, 실험 자료와 코드는 GitHub repository로 공개되어 있다. 공개 코드가 있다는 점은 중요하다. 다른 연구팀이 동일한 weak-to-strong 설정, 자동화된 실험 루프, 비용 산정 방식을 검증할 수 있기 때문이다.

다음 관전점은 재현성이다. 97%라는 숫자가 다른 alignment 과제, 다른 모델 계열, 더 긴 연구 기간에서도 유지되는지 봐야 한다. 또한 자동화된 연구 에이전트가 유효한 방향만 탐색하도록 어떤 평가 장치와 human review가 필요한지도 핵심이다. 원문 source tweet은 여기에서 확인할 수 있다.

#research-agents

Anthropic Opus 에이전트, weak-to-strong 격차 97%까지 회복