OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.
#benchmark
RSS FeedOpper가 53개 주요 LLM을 대상으로 "Car Wash" 논리 테스트를 실시했다. "세차장이 50미터 앞에 있는데 걸어갈까, 운전해 갈까?"라는 단순한 질문에 단 11개 모델만 정답을 맞혔다.
Opper가 53개 주요 LLM을 대상으로 "Car Wash" 논리 테스트를 실시했다. "세차장이 50미터 앞에 있는데 걸어갈까, 운전해 갈까?"라는 단순한 질문에 단 11개 모델만 정답을 맞혔다.
Anthropic이 2월 17일 Claude Sonnet 4.6을 출시했다. OSWorld에서 72.5%를 기록해 사실상 Opus 4.6과 동률이며, 1M 토큰 컨텍스트를 베타 지원하면서 API 요금은 $3/MTok를 유지한다.
Zhipu AI의 GLM-5가 Extended NYT Connections 벤치마크에서 81.8점으로 Kimi K2.5 Thinking(78.3)을 넘어서 오픈 가중치 모델 중 최고 성능을 기록했습니다.
Google DeepMind가 2월 19일 Gemini 3.1 Pro를 공개했다. 전작 대비 ARC-AGI-2 점수가 31.1%에서 77.1%로 2배 이상 향상됐으며, 100만 토큰 컨텍스트 창과 SWE-Bench Verified 80.6%를 기록했다.
중국 AI 스타트업 DeepSeek이 음력 설날인 2월 17일 V4를 공개했다. 1조 개 파라미터, 100만 토큰 컨텍스트, mHC 아키텍처를 갖춘 오픈 웨이트 모델로 코딩 벤치마크에서 Claude 3.5 Sonnet·GPT-4o를 능가한다고 주장한다.
알리바바가 Qwen3.5를 출시했다. 3,970억 매개변수의 MoE 아키텍처를 채택하고 201개 언어를 지원하며, 오픈웨이트 버전으로 자유롭게 배포 가능하다. 알리바바는 GPT-5.2, Claude Opus 4.5, Gemini 3를 벤치마크에서 앞선다고 주장했다.
Google이 Gemini 3.1 Pro를 출시하며 ARC-AGI-2 벤치마크에서 77.1%를 기록했다. 이전 모델 대비 추론 성능이 2배 이상 향상되었으며, 복잡한 문제 해결을 위한 고급 추론 기능이 개발자와 일반 사용자에게 폭넓게 제공된다.
Qwen 연구팀이 GPQA와 HLE(Humanity's Last Exam) 벤치마크 데이터셋의 품질에 심각한 문제가 있음을 공식 논문을 통해 확인했습니다. OCR 오류, 잘못된 정답, 검증 불가능한 문항들이 포함돼 있어 현재 AI 모델 평가의 신뢰성에 의문이 제기되고 있습니다.
Anthropic이 2월 17일 Claude Sonnet 4.6을 출시하고 무료·Pro 플랜 기본 모델로 전환했다. 100만 토큰 컨텍스트(베타)와 Opus급 코딩 성능을 Sonnet 가격에 제공한다.
Google DeepMind가 Gemini 3.1 Pro를 출시했다. 전작 대비 추론 성능이 2배 이상 향상됐으며 ARC-AGI-2에서 77.1%를 달성했다. 18개 추적 벤치마크 중 12개에서 1위를 기록하면서 API 가격은 $2/$12로 그대로 유지된다.