LLM X/Twitter Apr 16, 2026 1 min read
AI가 alignment 연구 자체를 돕는 실험이 수치로 검증됐다. Anthropic은 Claude Opus 4.6 기반 연구 에이전트가 weak-to-strong supervision 문제에서 성능 격차의 97%를 회복했다고 밝혔다.
AI가 alignment 연구 자체를 돕는 실험이 수치로 검증됐다. Anthropic은 Claude Opus 4.6 기반 연구 에이전트가 weak-to-strong supervision 문제에서 성능 격차의 97%를 회복했다고 밝혔다.