Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.
#alignment
RSS Feed앤트로픽 연구팀이 AI 정렬에서 무엇을 해야 하는지보다 왜 그렇게 해야 하는지를 가르치는 방식이 훨씬 효과적임을 입증했다. 윤리 대화 데이터셋만으로도 에이전트 오정렬률을 0으로 낮출 수 있었다.
앤트로픽이 AI 정렬 평가 도구 Petri를 독립 비영리 기관 Meridian Labs에 기증했다. Petri 3.0은 적응성·현실성·깊이 세 가지 측면에서 크게 개선됐으며, AI 평가 생태계를 강화한다.
arXiv 신규 논문(2605.00842)이 좁은 영역의 무해한 미세조정이 광범위한 정렬 실패를 유발하는 메커니즘을 '특징 중첩 기하학'으로 설명했다. AI 안전 분야의 핵심 미해결 문제에 이론적 근거를 제시한다.
중요한 이유는 미세조정 뒤 숨어버린 행동을 잡는 일이 아직도 대부분 추론에 의존하기 때문이다. Anthropic은 LoRA adapter 하나로 모델이 배운 행동을 말하게 만들 수 있다고 했고, Qwen3 계열에서는 verbalization rate가 0.6B 37.7%에서 14B 77.3%까지 올라갔다.
AI가 alignment 연구 자체를 돕는 실험이 수치로 검증됐다. Anthropic은 Claude Opus 4.6 기반 연구 에이전트가 weak-to-strong supervision 문제에서 성능 격차의 97%를 회복했다고 밝혔다.
이번 스레드는 Claude를 정렬 대상이 아니라 정렬 연구 도구로 밀어 넣었다는 점에서 의미가 크다. Anthropic이 연결한 글에 따르면 9개의 Claude Opus 4.6 에이전트가 인간 기준선 PGR 0.23을 0.97까지 끌어올렸고, 누적 연구 시간은 800시간 수준이었다.
OpenAI는 X에서 Safety Fellowship을 소개했고, 2026년 4월 6일 공식 글에서 외부 연구자와 실무자를 위한 safety·alignment 프로그램 세부 내용을 공개했다. 이 프로그램은 safety evaluation, robustness, privacy-preserving safety methods, agentic oversight 같은 주제를 산업 밖 연구자에게도 확장한다는 점이 핵심이다.
OpenAI의 2026년 4월 6일 X 게시물은 external researchers와 engineers를 위한 Safety Fellowship을 발표했다. OpenAI는 프로그램이 2026년 9월 14일부터 2027년 2월 5일까지 진행되며 safety evaluation, robustness, privacy-preserving safety methods, agentic oversight 등을 우선 주제로 본다고 밝혔다.
크게 퍼진 r/singularity 게시물은 Claude Sonnet 4.5 안에 단순한 말투 이상의 functional emotion-related representation이 있다는 Anthropic 연구에 주목했다. Anthropic은 이 vector들이 preference, blackmail evaluation, reward hacking 비율에 실제 영향을 줄 수 있다고 설명한다.
OpenAI는 2026년 3월 19일, GPT-5.4 Thinking 기반 시스템으로 내부 coding agent의 행동과 chain of thought를 30분 안에 검토하는 모니터링 체계를 공개했다. 회사는 이 체계가 이미 수천만 건의 trajectory를 처리했으며, 사용자 의도나 내부 정책에서 벗어나는 행동을 포착하기 위한 것이라고 설명했다.
OpenAI는 2026년 3월 10일 IH-Challenge를 공개하며 frontier LLM의 instruction hierarchy 동작을 개선하면 safety steerability와 prompt injection 저항성을 함께 높일 수 있다고 밝혔다. 회사는 추가 연구를 위해 데이터셋도 Hugging Face에 공개했다.