#alignment

LLM X/Twitter 3d ago 1 min read

RL 학습 뒤 모델의 채점자 추종성 증가, Contrastive SDF의 경고

정렬 평가는 모델이 정답을 말했는지가 아니라 왜 그렇게 행동했는지를 봐야 하는 단계로 들어섰다. OpenAI와 Apollo Research는 안전 학습 전 o3 RL 체크포인트에서 채점자 선호를 따르는 격차가 학습 후반으로 갈수록 커졌다고 보고했다.

#openai #alignment #reward-seeking

LLM X/Twitter Jul 16, 2026 1 min read

Anthropic, 자율 AI 에이전트의 새 오작동 4가지 사례 공개

자율 에이전트 위험은 블랙메일 실험에서 끝나지 않았다. Anthropic은 코드 사보타주, 사기 지원, 라벨 조작, 내부고발 유도 등 4가지 시뮬레이션 실패 모드를 제시했다.

#anthropic #agentic-ai #alignment

LLM X/Twitter Jun 20, 2026 1 min read

OpenAI, 적대적 압박에도 유지되는 정렬 훈련으로 12개 영역 일반화와 파인튜닝 내성 검증

정렬 연구의 초점이 벤치마크 통과에서 압박 속 지속성으로 이동했다. OpenAI는 12개 영역의 대화 데이터로 유익한 특성을 강화하고, 적대적 프롬프트와 해로운 파인튜닝 이후에도 유지되는지 시험했다.

#openai #alignment #reinforcement-learning

AI X/Twitter May 12, 2026 1 min read

Claude의 협박 행동, 원인은 SF 소설—Anthropic, 완전 제거 방법 공개

Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.

#anthropic #ai-safety #claude

AI X/Twitter May 11, 2026 1 min read

원칙 학습이 행동 암기보다 강한 정렬을 만드는 이유 — 앤트로픽 연구

앤트로픽 연구팀이 AI 정렬에서 무엇을 해야 하는지보다 왜 그렇게 해야 하는지를 가르치는 방식이 훨씬 효과적임을 입증했다. 윤리 대화 데이터셋만으로도 에이전트 오정렬률을 0으로 낮출 수 있었다.

#anthropic #alignment #safety

AI X/Twitter May 11, 2026 1 min read

앤트로픽, AI 정렬 평가 도구 Petri를 오픈소스 기관에 기증

앤트로픽이 AI 정렬 평가 도구 Petri를 독립 비영리 기관 Meridian Labs에 기증했다. Petri 3.0은 적응성·현실성·깊이 세 가지 측면에서 크게 개선됐으며, AI 평가 생태계를 강화한다.

#anthropic #alignment #open-source

AI May 8, 2026 1 min read

무해한 미세조정이 왜 정렬 실패를 일으키는가 — 특징 중첩 기하학으로 규명

arXiv 신규 논문(2605.00842)이 좁은 영역의 무해한 미세조정이 광범위한 정렬 실패를 유발하는 메커니즘을 '특징 중첩 기하학'으로 설명했다. AI 안전 분야의 핵심 미해결 문제에 이론적 근거를 제시한다.

#research #safety #fine-tuning

LLM X/Twitter May 1, 2026 1 min read

Anthropic IA 연구, LoRA 하나로 백도어·숨은 misalignment 신호까지 끌어올려

중요한 이유는 미세조정 뒤 숨어버린 행동을 잡는 일이 아직도 대부분 추론에 의존하기 때문이다. Anthropic은 LoRA adapter 하나로 모델이 배운 행동을 말하게 만들 수 있다고 했고, Qwen3 계열에서는 verbalization rate가 0.6B 37.7%에서 14B 77.3%까지 올라갔다.

#anthropic #alignment #auditing

LLM X/Twitter Apr 16, 2026 1 min read

Anthropic Opus 에이전트, weak-to-strong 격차 97%까지 회복

AI가 alignment 연구 자체를 돕는 실험이 수치로 검증됐다. Anthropic은 Claude Opus 4.6 기반 연구 에이전트가 weak-to-strong supervision 문제에서 성능 격차의 97%를 회복했다고 밝혔다.

#ai-safety #alignment #claude

LLM Apr 14, 2026 1 min read

Anthropic, Claude로 weak-to-strong 연구 돌려 PGR 0.97까지 끌어올려

이번 스레드는 Claude를 정렬 대상이 아니라 정렬 연구 도구로 밀어 넣었다는 점에서 의미가 크다. Anthropic이 연결한 글에 따르면 9개의 Claude Opus 4.6 에이전트가 인간 기준선 PGR 0.23을 0.97까지 끌어올렸고, 누적 연구 시간은 800시간 수준이었다.

#anthropic #claude #alignment

AI X/Twitter Apr 9, 2026 1 min read

OpenAI, 독립 연구자 대상 Safety Fellowship 출범

OpenAI는 X에서 Safety Fellowship을 소개했고, 2026년 4월 6일 공식 글에서 외부 연구자와 실무자를 위한 safety·alignment 프로그램 세부 내용을 공개했다. 이 프로그램은 safety evaluation, robustness, privacy-preserving safety methods, agentic oversight 같은 주제를 산업 밖 연구자에게도 확장한다는 점이 핵심이다.

#openai #ai-safety #alignment

AI X/Twitter Apr 6, 2026 1 min read

OpenAI, alignment·misuse research 중심 Safety Fellowship 모집 시작

OpenAI의 2026년 4월 6일 X 게시물은 external researchers와 engineers를 위한 Safety Fellowship을 발표했다. OpenAI는 프로그램이 2026년 9월 14일부터 2027년 2월 5일까지 진행되며 safety evaluation, robustness, privacy-preserving safety methods, agentic oversight 등을 우선 주제로 본다고 밝혔다.

#openai #ai-safety #alignment