#benchmark

RSS Feed

AI sources.twitter Feb 24, 2026 1 min read

OpenAI, 스마트 컨트랙트 보안용 AI 에이전트 벤치마크 'EVMbench' 공개

OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.

#openai #benchmark #smart-contracts

LLM Hacker News Feb 24, 2026 1 min read

"Car Wash" 테스트 — 53개 LLM 중 11개만 통과한 간단한 논리 문제

Opper가 53개 주요 LLM을 대상으로 "Car Wash" 논리 테스트를 실시했다. "세차장이 50미터 앞에 있는데 걸어갈까, 운전해 갈까?"라는 단순한 질문에 단 11개 모델만 정답을 맞혔다.

#llm #benchmark #reasoning

LLM Hacker News Feb 24, 2026 1 min read

"Car Wash" 테스트 — 53개 LLM 중 11개만 통과한 간단한 논리 문제

#llm #benchmark #reasoning

LLM Feb 24, 2026 1 min read

Anthropic, Claude Sonnet 4.6 출시 — 오퍼스급 성능을 5분의 1 가격에

Anthropic이 2월 17일 Claude Sonnet 4.6을 출시했다. OSWorld에서 72.5%를 기록해 사실상 Opus 4.6과 동률이며, 1M 토큰 컨텍스트를 베타 지원하면서 API 요금은 $3/MTok를 유지한다.

#anthropic #claude #product-launch

LLM Reddit Feb 24, 2026 1 min read

GLM-5, NYT Connections 벤치마크에서 오픈 가중치 모델 1위 달성

Zhipu AI의 GLM-5가 Extended NYT Connections 벤치마크에서 81.8점으로 Kimi K2.5 Thinking(78.3)을 넘어서 오픈 가중치 모델 중 최고 성능을 기록했습니다.

#glm-5 #benchmark #open-weights

LLM Feb 24, 2026 1 min read

Google, Gemini 3.1 Pro 출시 — ARC-AGI-2 77.1% 달성, 추론 성능 2배 향상

Google DeepMind가 2월 19일 Gemini 3.1 Pro를 공개했다. 전작 대비 ARC-AGI-2 점수가 31.1%에서 77.1%로 2배 이상 향상됐으며, 100만 토큰 컨텍스트 창과 SWE-Bench Verified 80.6%를 기록했다.

#google #gemini #benchmark

LLM Feb 23, 2026 1 min read

DeepSeek V4 공개 — 1조 파라미터·100만 토큰 컨텍스트 오픈 웨이트 코딩 모델

중국 AI 스타트업 DeepSeek이 음력 설날인 2월 17일 V4를 공개했다. 1조 개 파라미터, 100만 토큰 컨텍스트, mHC 아키텍처를 갖춘 오픈 웨이트 모델로 코딩 벤치마크에서 Claude 3.5 Sonnet·GPT-4o를 능가한다고 주장한다.

#deepseek #open-source #benchmark

LLM Feb 23, 2026 1 min read

알리바바, Qwen3.5 오픈웨이트 모델 출시 — 미국 주요 모델 성능 상회 주장

알리바바가 Qwen3.5를 출시했다. 3,970억 매개변수의 MoE 아키텍처를 채택하고 201개 언어를 지원하며, 오픈웨이트 버전으로 자유롭게 배포 가능하다. 알리바바는 GPT-5.2, Claude Opus 4.5, Gemini 3를 벤치마크에서 앞선다고 주장했다.

#alibaba #qwen #open-source

LLM Feb 23, 2026 1 min read

Google, Gemini 3.1 Pro 출시 — ARC-AGI-2 추론 성능 2배 이상 향상

Google이 Gemini 3.1 Pro를 출시하며 ARC-AGI-2 벤치마크에서 77.1%를 기록했다. 이전 모델 대비 추론 성능이 2배 이상 향상되었으며, 복잡한 문제 해결을 위한 고급 추론 기능이 개발자와 일반 사용자에게 폭넓게 제공된다.

#google #gemini #benchmark

LLM Reddit Feb 23, 2026 1 min read

Qwen 팀, GPQA·HLE 벤치마크 데이터 품질에 심각한 문제 있음을 공식 확인

Qwen 연구팀이 GPQA와 HLE(Humanity's Last Exam) 벤치마크 데이터셋의 품질에 심각한 문제가 있음을 공식 논문을 통해 확인했습니다. OCR 오류, 잘못된 정답, 검증 불가능한 문항들이 포함돼 있어 현재 AI 모델 평가의 신뢰성에 의문이 제기되고 있습니다.

#qwen #benchmark #gpqa

LLM Feb 22, 2026 1 min read

Anthropic, Claude Sonnet 4.6 출시 — 100만 토큰 컨텍스트로 Opus급 성능을 기본 모델에

Anthropic이 2월 17일 Claude Sonnet 4.6을 출시하고 무료·Pro 플랜 기본 모델로 전환했다. 100만 토큰 컨텍스트(베타)와 Opus급 코딩 성능을 Sonnet 가격에 제공한다.

#anthropic #claude #llm

LLM sources.twitter Feb 22, 2026 1 min read

Google DeepMind, Gemini 3.1 Pro 출시 — ARC-AGI-2 77.1% 달성, 추론 성능 2배 향상

Google DeepMind가 Gemini 3.1 Pro를 출시했다. 전작 대비 추론 성능이 2배 이상 향상됐으며 ARC-AGI-2에서 77.1%를 달성했다. 18개 추적 벤치마크 중 12개에서 1위를 기록하면서 API 가격은 $2/$12로 그대로 유지된다.

#gemini #google-deepmind #llm