Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
생명과학 에이전트의 병목이 모델 성능만이 아니라 데이터 검색 계층에 있다는 증거가 나왔다. Anthropic은 NCBI Virus 작업에서 결정론적 검색 도구를 붙이자 정확도가 거의 100%까지 올랐다고 밝혔다.
기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.
오픈 모델 경쟁이 단순 성능표에서 장시간 에이전트 비용으로 이동하고 있다. NVIDIA는 Nemotron 3 Ultra가 550B MoE 구조로 5배 빠른 추론과 최대 30% 낮은 복잡 작업 비용을 낸다고 밝혔다.
Microsoft Discovery가 6월 2일 모든 조직 대상 정식 제공으로 전환됐다. 과학·엔지니어링 R&D에서 전문 agent, 지식, 시뮬레이션, 검증 데이터를 묶고, 개인 연구자용 로컬 앱은 preview로 열렸다.
GitHub Copilot 앱 기술 미리보기가 유료 Copilot 고객 전체로 넓어지고, 로컬·클라우드 sandbox가 공개 미리보기로 붙었다. agent가 코드를 고치고 명령을 실행하는 시대의 핵심 쟁점이 모델 성능에서 실행 격리와 검증 흐름으로 이동하고 있다.
Perplexity가 agent 검색을 단일 API 호출이 아니라 Python code로 조립하는 구조로 바꿨다. 회사는 CVE vendor advisory 사례에서 token 사용량이 288.7K에서 42.9K로 85.1% 줄었다고 제시했다.
LocalLLaMA의 관심은 “Claude 대체”보다 tool call 오류율 12%라는 구체적 한계에 모였다.
NVIDIA Vera가 full production에 들어가며 agentic AI 인프라의 병목을 CPU 작업으로 끌어올렸다. OpenAI, Anthropic, SpaceXAI, ByteDance, CoreWeave 등이 도입 또는 평가 대상으로 언급됐고, x86 대비 1.8배 빠른 task completion이 핵심 수치다.
NVIDIA가 GTC Taipei에서 550B 파라미터 MoE 모델 Nemotron 3 Ultra와 Agent Toolkit을 묶어 기업용 장시간 에이전트 스택을 전면에 세웠다. 공개 모델 대비 최대 5배 빠른 추론과 최대 30% 낮은 비용, 6월 4일 배포 일정이 핵심이다.
Anthropic이 5월 29일 Claude Platform on AWS에 Managed Agents webhooks, multiagent orchestration, self-hosted sandboxes를 열었다. Claude API를 AWS 결제·IAM 안에서 쓰는 흐름이 단순 모델 호출을 넘어 agent 운영 계층으로 확장된다.