OpenAI와 Paradigm이 스마트컨트랙트 취약점 탐지·패치·익스플로잇 능력을 평가하는 EVMbench를 발표했다. GPT-5.3-Codex는 exploit 모드에서 72.2%를 기록해 GPT-5의 31.9% 대비 큰 격차를 보였다.
#benchmark
Reddit r/singularity에서 주목받은 게시물은 OpenAI가 SWE-bench Verified 테스트 품질 문제를 이유로 해당 벤치마크 평가를 더 이상 사용하지 않겠다고 밝힌 소식을 공유했다. 최소 16.4% 결함 지적은 LLM 코딩 벤치마크 해석 방식에 직접적인 영향을 준다.
OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.
OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.
OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.
Opper가 53개 주요 LLM을 대상으로 "Car Wash" 논리 테스트를 실시했다. "세차장이 50미터 앞에 있는데 걸어갈까, 운전해 갈까?"라는 단순한 질문에 단 11개 모델만 정답을 맞혔다.
Opper가 53개 주요 LLM을 대상으로 "Car Wash" 논리 테스트를 실시했다. "세차장이 50미터 앞에 있는데 걸어갈까, 운전해 갈까?"라는 단순한 질문에 단 11개 모델만 정답을 맞혔다.
Anthropic이 2월 17일 Claude Sonnet 4.6을 출시했다. OSWorld에서 72.5%를 기록해 사실상 Opus 4.6과 동률이며, 1M 토큰 컨텍스트를 베타 지원하면서 API 요금은 $3/MTok를 유지한다.
Zhipu AI의 GLM-5가 Extended NYT Connections 벤치마크에서 81.8점으로 Kimi K2.5 Thinking(78.3)을 넘어서 오픈 가중치 모델 중 최고 성능을 기록했습니다.
Google DeepMind가 2월 19일 Gemini 3.1 Pro를 공개했다. 전작 대비 ARC-AGI-2 점수가 31.1%에서 77.1%로 2배 이상 향상됐으며, 100만 토큰 컨텍스트 창과 SWE-Bench Verified 80.6%를 기록했다.
중국 AI 스타트업 DeepSeek이 음력 설날인 2월 17일 V4를 공개했다. 1조 개 파라미터, 100만 토큰 컨텍스트, mHC 아키텍처를 갖춘 오픈 웨이트 모델로 코딩 벤치마크에서 Claude 3.5 Sonnet·GPT-4o를 능가한다고 주장한다.
알리바바가 Qwen3.5를 출시했다. 3,970억 매개변수의 MoE 아키텍처를 채택하고 201개 언어를 지원하며, 오픈웨이트 버전으로 자유롭게 배포 가능하다. 알리바바는 GPT-5.2, Claude Opus 4.5, Gemini 3를 벤치마크에서 앞선다고 주장했다.