Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
NMR 구조 해석은 합성화학의 병목인데, Anthropic은 Opus 4.7이 20개 화합물 평가에서 ChemDraw·MestReNova와 경쟁했다고 밝혔다. 수소 NMR 평균 오차는 약 ±0.079 ppm이었다.
ARC Prize가 Opus 4.8을 ARC-AGI-3 새 SOTA로 기록하며 benchmark 경쟁의 기준을 다시 낮은 숫자로 보여줬다. 점수는 1.5%, 비용은 약 $10K로, 향상은 분명하지만 일반 지능과는 아직 거리가 있다.
Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
오염 없는 113개 장기 코딩 과제가 공개 벤치마크의 촘촘한 순위를 흔들었다. DeepSWE에서는 GPT-5.5가 70.0%, Claude Opus 4.7이 54.2%를 기록했다.
Google이 5월 19일 Google I/O 2026에서 개인 AI 에이전트 Gemini Spark와 Gemini 3.1 Pro를 모든 벤치마크에서 앞서는 Gemini 3.5 Flash를 동시 공개했다. Spark는 기기가 꺼진 상태에서도 24시간 작동하며 Gmail 직접 이메일·크롬 웹 작업까지 처리하는 상시 에이전트로, 다음 주 미국 AI Ultra 구독자부터 베타 제공된다.
ModelRift가 6개 AI 코딩 도구를 OpenSCAD 파르테논 모델링 과제로 비교한 결과, Google I/O 2026에서 공개된 Antigravity 2.0이 자율 실행 품질 4.5/5로 선두를 차지했습니다. 내부 격자 천장까지 구현한 유일한 도구였습니다.
Google이 I/O 2026에서 Gemini 3.5 Flash를 GA 출시했다. Gemini 3.1 Pro를 코딩·에이전트 벤치마크에서 능가하면서도 출력 속도는 4배 빠르고 비용은 40% 저렴하다.
Anthropic과 PwC가 전략적 제휴를 확대해 Claude Code와 Cowork를 미국팀 시작으로 글로벌 전체에 배포하며, 3만 명 인증 과정과 공동 AI 센터를 설립한다. 보험 인수 주기는 10주에서 10일로 단축됐다.
DELEGATE-52 연구에 따르면 Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 등 최첨단 LLM도 긴 위임 워크플로우에서 문서 내용의 평균 25%를 조용히 손상시킨다.