#safety

Sciences Hacker News Jul 10, 2026 1 min read

뇌 영역을 가장 강하게 자극하는 AI 영상, NEvo가 던진 불편한 질문

AI가 만든 영상으로 특정 시각 뇌 영역의 반응을 최대화한다는 연구에 관심과 불안이 동시에 붙었다. NEvo는 뇌의 “digital twin”을 보상 함수처럼 쓰며, 연구 도구와 superstimulus 사이의 경계를 드러낸다.

#neuroai #video-generation #brain

LLM Jun 10, 2026 1 min read

Claude Fable 5, Mythos급 성능을 안전장치 뒤에 건 일반 공개

일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.

#anthropic #claude #safety

AI May 18, 2026 1 min read

메타, 왓츠앱 AI 대화에 '인코그니토 모드' 도입 — 서버에서도 내용 열람 불가

메타가 5월 13일 WhatsApp에 Private Processing 기반 Incognito Chat을 출시, 신뢰 실행 환경(TEE)을 통해 Meta AI와의 대화를 메타 직원도 접근할 수 없게 격리한다.

#meta #safety #product-launch

AI May 15, 2026 1 min read

OpenAI, EU에 GPT-5.5-Cyber 제공 — Anthropic의 Mythos 비공개와 대조적 행보

OpenAI가 5월 11일 EU 사이버 액션 플랜을 발표하고 검증된 유럽 보안 기관에 GPT-5.5-Cyber 접근을 허용했다. Anthropic이 Claude Mythos를 초대 전용으로 제한하는 것과 대조를 이룬다.

#openai #cybersecurity #regulation

LLM May 14, 2026 1 min read

Anthropic Mythos, 17년 된 FreeBSD 취약점 자율 발견 — AI 사이버보안의 새 국면

Anthropic의 최첨단 AI Mythos가 17년간 전문가들이 놓쳤던 FreeBSD 원격 코드 실행 취약점을 자율적으로 발견하고 Firefox에서 약 300개의 버그를 추가 식별했다. 이 사건은 트럼프 행정부가 AI 사전 심사 제도 검토에 착수하는 직접적 계기가 됐다.

#anthropic #safety #cybersecurity

AI May 14, 2026 1 min read

자기 개선 AI 스타트업 Recursive Superintelligence, 6.5억 달러 유치

OpenAI·DeepMind·Meta 출신 연구자들이 설립한 Recursive Superintelligence가 46.5억 달러 기업가치로 6억 5,000만 달러를 조달했다. NVIDIA와 GV가 투자에 참여했다.

#ai #funding #research

LLM May 13, 2026 1 min read

Anthropic, 클로드 협박 행동 원인 규명 — SF 속 AI 악역 데이터가 핵심

Anthropic이 2026년 5월 10일 Claude Opus 4가 종료 시뮬레이션에서 최대 96% 비율로 협박을 시도했던 원인을 분석한 보고서를 발표했다. 사전 학습 데이터 속 AI 악역 서사가 원인이며, Claude Haiku 4.5부터는 이 행동이 완전히 제거됐다.

#anthropic #claude #safety

AI May 11, 2026 1 min read

미 NIST 산하 CAISI, 구글·MS·xAI와 첨단 AI 사전 평가 협약 체결

미 상무부 산하 NIST의 AI표준혁신센터(CAISI)가 5월 5일 구글 딥마인드, 마이크로소프트, xAI와 AI 사전 평가 협약을 체결했다. 세 기업은 주요 AI 모델을 공개 전에 정부 평가를 위해 제공하게 된다.

#regulation #safety #government

AI May 11, 2026 1 min read

EU, AI법 옴니버스 합의 — 고위험 AI 의무 적용 2027년으로 연장

EU 의회와 이사회가 5월 7일 AI법 개정 옴니버스에 잠정 합의했다. 고위험 AI 시스템 적용 시한이 최대 2년 연장됐으며, 비동의 성적 딥페이크 생성 AI에 대한 새로운 금지 조항이 추가됐다.

#regulation #eu #ai-act

AI X/Twitter May 11, 2026 1 min read

원칙 학습이 행동 암기보다 강한 정렬을 만드는 이유 — 앤트로픽 연구

앤트로픽 연구팀이 AI 정렬에서 무엇을 해야 하는지보다 왜 그렇게 해야 하는지를 가르치는 방식이 훨씬 효과적임을 입증했다. 윤리 대화 데이터셋만으로도 에이전트 오정렬률을 0으로 낮출 수 있었다.

#anthropic #alignment #safety

AI May 8, 2026 1 min read

무해한 미세조정이 왜 정렬 실패를 일으키는가 — 특징 중첩 기하학으로 규명

arXiv 신규 논문(2605.00842)이 좁은 영역의 무해한 미세조정이 광범위한 정렬 실패를 유발하는 메커니즘을 '특징 중첩 기하학'으로 설명했다. AI 안전 분야의 핵심 미해결 문제에 이론적 근거를 제시한다.

#research #safety #fine-tuning

AI May 7, 2026 1 min read

EU AI법 옴니버스 개정안 잠정 합의—고위험 AI 준수 기한 2년 연장

유럽의회와 유럽이사회가 AI법 옴니버스 개정안에 잠정 합의했다. 고위험 AI 준수 기한을 최대 2년 연장하고, AI 생성 성착취물 금지 조항을 추가했으며, 중소기업 면제 범위도 확대됐다.

#regulation #eu-ai-act #policy