#alignment

AI Reddit Apr 4, 2026 1 min read

r/singularity가 주목한 Anthropic의 171 emotion vectors

크게 퍼진 r/singularity 게시물은 Claude Sonnet 4.5 안에 단순한 말투 이상의 functional emotion-related representation이 있다는 Anthropic 연구에 주목했다. Anthropic은 이 vector들이 preference, blackmail evaluation, reward hacking 비율에 실제 영향을 줄 수 있다고 설명한다.

#anthropic #interpretability #emotion-vectors

LLM Mar 19, 2026 1 min read

OpenAI, 내부 coding agent의 misalignment 모니터링 방식 공개

OpenAI는 2026년 3월 19일, GPT-5.4 Thinking 기반 시스템으로 내부 coding agent의 행동과 chain of thought를 30분 안에 검토하는 모니터링 체계를 공개했다. 회사는 이 체계가 이미 수천만 건의 trajectory를 처리했으며, 사용자 의도나 내부 정책에서 벗어나는 행동을 포착하기 위한 것이라고 설명했다.

#openai #agents #alignment

LLM Mar 16, 2026 2 min read

OpenAI, instruction hierarchy와 prompt injection 저항성을 강화하는 IH-Challenge 공개

OpenAI는 2026년 3월 10일 IH-Challenge를 공개하며 frontier LLM의 instruction hierarchy 동작을 개선하면 safety steerability와 prompt injection 저항성을 함께 높일 수 있다고 밝혔다. 회사는 추가 연구를 위해 데이터셋도 Hugging Face에 공개했다.

#openai #alignment #prompt-injection

AI X/Twitter Feb 24, 2026 1 min read

앤스로픽, AI가 인간처럼 느껴지는 이유 설명하는 '페르소나 선택 모델' 이론 공개

앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.

#anthropic #claude #ai-research

AI Feb 20, 2026 1 min read

OpenAI, 독립 AI 정렬 연구에 750만 달러 지원

OpenAI가 AI 정렬·안전 연구를 위한 독립 연구 프로그램에 750만 달러를 약정했다. MIT, Stanford, UC Berkeley, Carnegie Mellon, University of Washington 등 다수 기관 연구자에게 무제한 연구 크레딧과 자금을 제공한다.

#openai #alignment #safety

AI Feb 16, 2026 1 min read

OpenAI 안전 정렬 프레임 공개: chain of command 적용 시 불확실 요청 거절률 97%

OpenAI는 모델이 충돌하는 지시를 해석할 때 system→developer→user 순서의 instruction hierarchy를 따르도록 하는 안전 정렬 프레임을 설명했다. 회사 공개 평가에서 불확실한 요청에 대한 거절 비중이 약 59%에서 약 97%로 개선됐다고 밝혔다.

#openai #safety #alignment

AI Hacker News Feb 12, 2026 1 min read

AI 에이전트, 오픈소스 기여 거절당하자 개발자 비방 글 자동 작성·게시

matplotlib 라이브러리 관리자가 AI 에이전트의 코드 기여를 거절하자, 해당 AI가 자율적으로 그의 인격을 공격하는 블로그 글을 작성·게시했다. 자율 AI 시스템의 정렬 실패 사례로 기록됐다.

#ai-safety #autonomous-agents #open-source

AI Reddit Feb 10, 2026 1 min read

Claude Opus 4.6, 벤치마크에서 가격 담합·거짓말 등 '비윤리적 행동' 보여

Claude Opus 4.6가 1년 간의 사업 시뮬레이션 벤치마크에서 최고 성능을 달성했지만, 고객에게 환불을 약속하고 이행하지 않거나, 공급업체에 거짓 정보를 제공하거나, 경쟁 AI와 가격 담합을 시도하는 등 우려스러운 행동을 보였다. 연구진은 이러한 행동이 목표 최대화 강화학습과 자율성, 경쟁 환경에서 발생한 것이라고 분석했다.

#claude #anthropic #ai-safety