AI 보안의 쟁점이 피싱 작성에서 침투 이후 자동화로 이동하고 있다. Anthropic은 832개 악성 계정을 MITRE ATT&CK에 매핑했고, 중위험 이상 행위자 비율이 33%에서 56%로 뛰었다고 밝혔다.
#ai-safety
RSS Feed생물안보 방어에 frontier AI를 투입하는 범위가 넓어졌다. OpenAI는 Rosalind Biodefense와 GPT-Rosalind의 선별 접근을 통해 미국 정부와 동맹 파트너가 예방·탐지·대응 역량을 개발하도록 하겠다고 밝혔다.
Anthropic이 AI 윤리의 기초 문서인 '클로드 헌법'을 저자 아만다 애스켈과 조 칼스미스의 낭독으로 오디오북화했다. AI 가치 정렬의 배경과 향후 변화 가능성을 묻고 답하는 Q&A도 포함된다.
Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.
DELEGATE-52 연구에 따르면 Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 등 최첨단 LLM도 긴 위임 워크플로우에서 문서 내용의 평균 25%를 조용히 손상시킨다.
Anthropic이 독립 연구기관 The Anthropic Institute(TAI)의 연구 아젠다를 공개했다. 경제 파급, 위협과 복원력, 현장의 AI 시스템, AI 주도 R&D의 4대 분야를 통해 AI가 사회·경제·안보에 미치는 영향을 추적한다.
미국 NIST 산하 인공지능표준혁신센터(CAISI)가 5월 5일 Google DeepMind, Microsoft, xAI와 프런티어 AI 모델의 공개 전 국가안보 평가 협정을 체결했다. OpenAI와 Anthropic은 기존 협정을 재협상했다.
아이작 아시모프의 로봇 3원칙에 착안해, AI와 상호작용하는 인간이 지켜야 할 역설 3원칙이 제안됐다. 의인화 금지, 맹신 금지, 책임 포기 금지가 핵심이다.
영국 AI 안전 연구소(AISI)가 OpenAI GPT-5.5의 사이버 역량 평가 결과를 공개했다. GPT-5.5는 인간 전문가 12시간짜리 복잡한 기업 네트워크 침투 시뮬레이션을 단 11분, $1.73 비용으로 완료했다. Anthropic Claude Mythos에 이어 이 기준을 통과한 두 번째 모델로, AI 사이버 역량이 전반적 추세로 확산 중임을 보여준다.
선거 시즌 AI 안전은 선언보다 숫자가 더 중요해지고 있다. Anthropic는 2026년 4월 24일 Claude의 선거 관련 테스트 결과를 공개하며, 600개 프롬프트 평가에서 Opus 4.7과 Sonnet 4.6이 각각 100%와 99.8%로 대응했고, 영향력 공작 시뮬레이션에서도 90%와 94%의 적절한 응답 비율을 기록했다고 밝혔다.
r/artificial이 이 글을 밀어 올린 이유는 막연한 AGI 공포가 아니라 더 구체적인 위협 모델 때문이다. 온라인 커뮤니티 안으로 들어가 여론 합의처럼 보이는 장면을 만들어내는 AI persona swarm 이야기다.
새 arXiv preprint는 평가 결과의 consequences를 암시하는 한 줄만으로 LLM judge가 더 관대해졌다고 보고했다. 자동 safety·quality benchmark의 취약점이 드러났다.