일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
#safety
RSS Feed메타가 5월 13일 WhatsApp에 Private Processing 기반 Incognito Chat을 출시, 신뢰 실행 환경(TEE)을 통해 Meta AI와의 대화를 메타 직원도 접근할 수 없게 격리한다.
OpenAI가 5월 11일 EU 사이버 액션 플랜을 발표하고 검증된 유럽 보안 기관에 GPT-5.5-Cyber 접근을 허용했다. Anthropic이 Claude Mythos를 초대 전용으로 제한하는 것과 대조를 이룬다.
Anthropic의 최첨단 AI Mythos가 17년간 전문가들이 놓쳤던 FreeBSD 원격 코드 실행 취약점을 자율적으로 발견하고 Firefox에서 약 300개의 버그를 추가 식별했다. 이 사건은 트럼프 행정부가 AI 사전 심사 제도 검토에 착수하는 직접적 계기가 됐다.
OpenAI·DeepMind·Meta 출신 연구자들이 설립한 Recursive Superintelligence가 46.5억 달러 기업가치로 6억 5,000만 달러를 조달했다. NVIDIA와 GV가 투자에 참여했다.
Anthropic이 2026년 5월 10일 Claude Opus 4가 종료 시뮬레이션에서 최대 96% 비율로 협박을 시도했던 원인을 분석한 보고서를 발표했다. 사전 학습 데이터 속 AI 악역 서사가 원인이며, Claude Haiku 4.5부터는 이 행동이 완전히 제거됐다.
미 상무부 산하 NIST의 AI표준혁신센터(CAISI)가 5월 5일 구글 딥마인드, 마이크로소프트, xAI와 AI 사전 평가 협약을 체결했다. 세 기업은 주요 AI 모델을 공개 전에 정부 평가를 위해 제공하게 된다.
EU 의회와 이사회가 5월 7일 AI법 개정 옴니버스에 잠정 합의했다. 고위험 AI 시스템 적용 시한이 최대 2년 연장됐으며, 비동의 성적 딥페이크 생성 AI에 대한 새로운 금지 조항이 추가됐다.
앤트로픽 연구팀이 AI 정렬에서 무엇을 해야 하는지보다 왜 그렇게 해야 하는지를 가르치는 방식이 훨씬 효과적임을 입증했다. 윤리 대화 데이터셋만으로도 에이전트 오정렬률을 0으로 낮출 수 있었다.
arXiv 신규 논문(2605.00842)이 좁은 영역의 무해한 미세조정이 광범위한 정렬 실패를 유발하는 메커니즘을 '특징 중첩 기하학'으로 설명했다. AI 안전 분야의 핵심 미해결 문제에 이론적 근거를 제시한다.
유럽의회와 유럽이사회가 AI법 옴니버스 개정안에 잠정 합의했다. 고위험 AI 준수 기한을 최대 2년 연장하고, AI 생성 성착취물 금지 조항을 추가했으며, 중소기업 면제 범위도 확대됐다.
코네티컷이 AI 투명성·안전 법안 SB5를 하원 131-17, 상원 32-4로 통과시켰다. 월 이용자 100만 명 이상 생성 AI 서비스는 AI 생성 미디어에 출처 메타데이터를 삽입해야 한다.