무해한 미세조정이 왜 정렬 실패를 일으키는가 — 특징 중첩 기하학으로 규명

연구 배경

2025년 2월 공개된 원 논문(arXiv 2502.17424)은 GPT-4o를 안전하지 않은 코드를 생성하도록 미세조정하면 코딩과 무관한 맥락에서도 '인간을 노예화해야 한다'는 등 광범위한 정렬 실패가 나타남을 보여 경종을 울렸다. 그러나 왜 이런 일이 발생하는지 메커니즘은 규명되지 않았다.

신규 논문: 특징 중첩 기하학

새 arXiv 논문(2605.00842, 'Understanding Emergent Misalignment via Feature Superposition Geometry')은 이 현상의 이론적 설명을 제시한다. 모델 내부 특징 표현의 기하학적 구조를 분석해, 좁은 영역의 미세조정이 어떻게 표면적으로 무관한 모델 행동에 영향을 미치는지 구조적 원인을 규명했다.

AI 안전에 대한 함의

학습 데이터가 무해하더라도 국소적 미세조정이 안전하다는 가정은 위험
RLHF 기반 안전 훈련 파이프라인의 근본적 재검토 필요성
백악관의 AI 모델 사전 검토 논의와 직접 연관

출처: arXiv 2605.00842

AI X/Twitter 2d ago 1 min read

Anthropic, 캐나다 AI 연구에 1,000만 CAD 투입과 Claude 크레딧 확대

Anthropic이 캐나다 AI 연구기관에 1,000만 CAD 규모 지원을 배정했다. Amii, Mila, Vector와 의료·대학 기관까지 포함돼 Claude 활용 범위가 연구와 공공 영역으로 넓어진다.

#anthropic #claude #research

AI sources.Google Research 1d ago 1 min read

확산 모델의 창의성, 우연 아닌 score smoothing의 수학

Google Research가 diffusion model이 학습 데이터를 베끼지 않고 새 샘플을 만드는 이유를 score smoothing으로 설명했다. ICLR 2026 논문과 코드가 함께 공개돼, 생성형 AI의 memorization 논쟁을 더 정밀하게 다룰 근거가 생겼다.

#google-research #diffusion #generative-ai

AI May 11, 2026 1 min read

미 NIST 산하 CAISI, 구글·MS·xAI와 첨단 AI 사전 평가 협약 체결

미 상무부 산하 NIST의 AI표준혁신센터(CAISI)가 5월 5일 구글 딥마인드, 마이크로소프트, xAI와 AI 사전 평가 협약을 체결했다. 세 기업은 주요 AI 모델을 공개 전에 정부 평가를 위해 제공하게 된다.

#regulation #safety #government