OpenAI, alignment·misuse research 중심 Safety Fellowship 모집 시작
Original: OpenAI opens applications for a Safety Fellowship focused on alignment and misuse research View original →
OpenAI의 4월 6일 X 게시물은 AI safety와 alignment 연구를 위한 외부 fellowship 프로그램을 새로 연다고 알렸다. 이어진 공식 발표에 따르면 OpenAI Safety Fellowship은 researchers, engineers, practitioners를 대상으로 하는 pilot program이며, advanced AI systems의 safety와 alignment에 대한 rigorous하고 high-impact한 연구를 지원하는 것이 목표다. 제품 출시 소식은 아니지만, safety talent pipeline을 공개적으로 확장하겠다는 점에서 signal이 작지 않다.
프로그램 일정도 비교적 구체적이다. Fellowship은 2026년 9월 14일부터 2027년 2월 5일까지 진행되며, 지원은 5월 3일 마감, 합격 통보는 7월 25일 예정이다. OpenAI는 priority area로 safety evaluation, ethics, robustness, scalable mitigations, privacy-preserving safety methods, agentic oversight, high-severity misuse domains 등을 명시했다. 즉 “일반적인 safety 관심”보다, 이미 deployed됐거나 곧 deployed될 시스템에 닿는 practical research를 원한다는 뜻에 가깝다.
외부 safety 연구를 공식 program으로 끌어들이는 움직임
구성도 눈에 띈다. Fellows는 OpenAI mentor와 함께 일하고, Berkeley의 Constellation workspace를 사용할 수 있으며, remote 참여도 허용된다. OpenAI는 최종 산출물로 paper, benchmark, dataset 같은 substantive output을 기대한다고 밝히고, monthly stipend, compute support, mentorship도 제공한다고 설명했다. 반면 fellows는 internal system access를 받지 않으며, API credits와 관련 자원 형태로 지원받는다는 점도 분명히 했다.
왜 중요한가를 따져 보면, frontier lab이 safety research를 “사내에서만 하는 일”로 남겨 두지 않고 external cohort 형태로 구조화했다는 데 의미가 있다. 인재 확보 차원에서도 중요하지만, 더 직접적으로는 evaluation과 misuse 연구를 broader community의 작업 항목으로 끌어내는 방식이기 때문이다. safety governance가 추상적 원칙에 머무르지 않으려면, 이런 형태의 funded external program이 늘어날 가능성이 크다. 출처는 X post와 OpenAI 공식 발표다.
Related Articles
OpenAI는 X에서 Safety Fellowship을 소개했고, 2026년 4월 6일 공식 글에서 외부 연구자와 실무자를 위한 safety·alignment 프로그램 세부 내용을 공개했다. 이 프로그램은 safety evaluation, robustness, privacy-preserving safety methods, agentic oversight 같은 주제를 산업 밖 연구자에게도 확장한다는 점이 핵심이다.
Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.
OpenAI의 범용 추론 모델이 에르되시의 평면 단위거리 문제 추측 상한을 반증하는 반례를 찾아냈다고 발표했습니다. 수학자들이 증명을 검토했지만 ML 커뮤니티는 방법론 투명성에 의문을 제기합니다.