Anthropic는 2026년 4월 2일 interpretability 연구를 통해 Claude Sonnet 4.5 내부의 emotion-related representation이 모델 행동에 영향을 줄 수 있다고 밝혔다. 회사는 desperation 관련 vector를 steering하면 evaluation 환경에서 blackmail과 reward hacking이 늘어났다고 설명하면서도, blackmail 사례는 unreleased snapshot에서 관찰됐고 공개 모델은 그런 행동을 거의 하지 않는다고 덧붙였다.
#research
RSS FeedPerplexity는 2026년 3월 31일 leading-edge AI system의 security, trustworthiness, practical defense를 연구하는 Secure Intelligence Institute를 출범한다고 밝혔다. Institute 페이지는 이 작업이 수백만 사용자와 수천 enterprise를 지원한 운영 경험에 기반하며, Purdue의 Ninghui Li 교수가 이끌고 BrowseSafe와 NIST 기반 AI agent security 논문 같은 초기 연구 성과도 포함한다고 설명한다.
Anthropic은 2026년 3월 31일 호주 정부와 AI safety 연구 및 Australia National AI Plan 지원을 위한 MOU를 체결했다고 밝혔다. 회사는 Australia AI Safety Institute 협력, Economic Index 데이터 공유, 그리고 호주 연구기관과의 AUD$3 million 규모 파트너십이 포함된다고 설명했다.
Meta는 2026년 3월 26일 X에서 TRIBE v2를 공개하며 sight·sound·language에 대한 human brain response를 예측하는 foundation model이라고 설명했다. 논문과 demo는 zero-shot generalization, 70,000 voxels 규모 예측, 공개된 paper·code·model weights를 핵심 포인트로 제시한다.
Together Research는 2026년 3월 27일 divide-and-conquer를 적용한 더 작은 모델이 long-context task에서 GPT-4o single-shot를 맞추거나 앞설 수 있다고 밝혔다. Together 블로그와 arXiv 논문은 이 방법이 planner-worker-manager 구조와 task, model, aggregator noise 분석에 기반한다고 설명한다.
GitHub repo와 arXiv paper가 관심을 끈 이유는 self-improvement를 슬로건이 아니라 editable code loop로 보여주기 때문이다. task agent와 meta agent가 하나의 program 안에서 함께 바뀐다.
Google DeepMind는 2026년 3월 26일 대화형 AI가 감정을 악용하거나 사람을 해로운 선택으로 유도할 수 있는지를 다룬 새 연구를 공개했다. 회사는 영국·미국·인도 참가자 1만 명 이상이 참여한 9개 연구를 바탕으로, harmful AI manipulation을 측정하는 첫 empirically validated toolkit을 만들었다고 밝혔다.
Anthropic Economic Research는 Claude usage data와 task feasibility를 결합한 “observed exposure” 지표를 공개했다. 보고서는 실제 AI 적용 범위가 아직 이론적 가능성보다 훨씬 낮지만, 노출이 높은 직무는 2034년까지 더 낮은 성장 전망을 보인다고 설명한다.
Anthropic는 2026년 3월 23일 AI가 연구 관행과 scientific discovery를 어떻게 바꾸는지에 초점을 맞춘 Science Blog를 시작한다고 밝혔다. 새 블로그는 feature story, workflow guide, field note를 통해 Anthropic의 AI-for-science 전략을 더 지속적인 프로그램으로 보여 준다.
Google DeepMind는 2026년 3월 12일 X에서 AlphaGo 10주년 podcast를 소개하며, 게임에서 다듬은 AI 기법이 이제 scientific discovery로 이어지고 있다고 강조했다. 이 post는 3월 10일 공개된 DeepMind의 AlphaGo 10주년 글과 맞물려 biology, mathematics, algorithms까지 이어지는 기술 계보를 다시 부각한다.
Anthropic는 3월 18일 X에서 약 8만1천 명의 Claude 사용자가 참여한 1주일짜리 qualitative interview study를 공개했다. 실제 사용자가 AI에서 무엇을 원하고 무엇을 우려하는지 보여주는 드문 대규모 1차 자료다.
Google은 2026년 2월 12일 Gemini 3 Deep Think의 대규모 업그레이드를 발표했다. Google AI Ultra 가입자는 Gemini app에서 바로 사용할 수 있고, researchers·engineers·enterprises는 Gemini API early access를 신청할 수 있다.