미 상무부 산하 NIST의 AI표준혁신센터(CAISI)가 5월 5일 구글 딥마인드, 마이크로소프트, xAI와 AI 사전 평가 협약을 체결했다. 세 기업은 주요 AI 모델을 공개 전에 정부 평가를 위해 제공하게 된다.
#research
RSS Feed필즈상 수상 수학자 Timothy Gowers가 ChatGPT 5.5 Pro로 미해결 수학 문제에 도전해 약 1시간 만에 박사급 증명을 이끌어냈다. 수학 연구의 위기가 임박했다고 경고했다.
DELEGATE-52 연구에 따르면 Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 등 최첨단 LLM도 긴 위임 워크플로우에서 문서 내용의 평균 25%를 조용히 손상시킨다.
Anthropic이 독립 연구기관 The Anthropic Institute(TAI)의 연구 아젠다를 공개했다. 경제 파급, 위협과 복원력, 현장의 AI 시스템, AI 주도 R&D의 4대 분야를 통해 AI가 사회·경제·안보에 미치는 영향을 추적한다.
Allen Institute for AI(Ai2)가 5월 5일 로봇 작업 전용 오픈소스 기초 모델 MolmoAct 2를 공개했다. 7B 파라미터 모델로 Physical Intelligence의 π0.5를 능가하며, 실제 환경 작업 성공률 최대 87.1%를 달성했다.
arXiv 신규 논문(2605.00842)이 좁은 영역의 무해한 미세조정이 광범위한 정렬 실패를 유발하는 메커니즘을 '특징 중첩 기하학'으로 설명했다. AI 안전 분야의 핵심 미해결 문제에 이론적 근거를 제시한다.
Sakana AI가 음성 AI의 레이턴시와 지식 품질을 동시에 해결하는 KAME(거북이) 아키텍처를 공개했다. 프론트엔드 S2S 모델과 백엔드 LLM을 탠덤으로 연결해 2.1초 파이프라인 지연 없이 MT-Bench 6.43점을 달성했다.
전 DeepMind 연구원 데이비드 실버가 인간 데이터 없이 강화학습만으로 범용 지식을 학습하는 AI를 개발하는 Ineffable Intelligence를 설립, 51억 달러 밸류에이션으로 11억 달러를 조달했다.
하버드 의대와 Beth Israel Deaconess가 Science에 게재한 연구에서 OpenAI o1 모델이 실제 응급실 케이스 76건 중 67%를 정확히 진단했다. 두 내과 전문의의 정확도(55%, 50%)를 웃도는 결과다.
대규모 통제 이력서 실험 연구에 따르면, LLM은 자신이 생성한 이력서를 인간이 작성하거나 다른 모델이 생성한 것보다 일관되게 더 선호한다. 자기 편향(self-preference bias)은 67~82% 범위로, 같은 LLM을 사용한 지원자가 그렇지 않은 지원자보다 단가 23~60% 더 많이 최종 후보에 오른다.
저명 학술지 Science에 게재된 새 연구에 따르면 최신 LLM이 실제 응급실 데이터와 수백 명의 의사 비교 실험에서 진단, 응급 분류, 다음 처치 결정 등 임상 과제 전반에서 인간 의사와 동등하거나 상회하는 성과를 보였다. 연구자들은 AI가 의사를 대체하는 것이 아니라 협력적 돌봄 모델로 통합돼야 한다고 강조했다.
중요한 점은 개인 조언이 AI가 실제 결정을 건드리는 가장 직접적인 장면 중 하나라는 데 있다. Anthropic는 100만 대화 표본 중 6%가 조언을 구했고, 관계 조언에서 Opus 4.7이 Opus 4.6 대비 아첨 응답 비율을 절반으로 줄였다고 적었다.