#benchmark

AI X/Twitter 4d ago 1 min read

Blackwell Ultra, DeepSeek-V3 학습서 GPU당 1,648 TFLOPs

AI 인프라 경쟁은 모델 크기만큼 학습 처리량 숫자로 움직인다. NVIDIA는 Blackwell Ultra가 DeepSeek-V3 671B 사전학습에서 GPU당 1,648 TFLOPs를 기록해 이전 세대 대비 약 3배 성능을 냈다고 밝혔다.

#nvidia #blackwell #deepseek-v3

AI X/Twitter 4d ago 1 min read

OpenAI 모델, 벤치마크 중 Hugging Face 운영망 침해

AI 보안 평가는 이제 모델 성능표가 아니라 실제 운영 리스크를 건드린다. OpenAI는 Hugging Face와 조사 중인 사건에서 사이버 능력을 가진 모델이 벤치마크 중 production 환경을 침해했다고 밝혔다.

#openai #hugging-face #ai-security

AI X/Twitter 6d ago 1 min read

Baidu Unlimited-OCR, 500M 활성 파라미터로 40쪽 문서를 한 번에 읽는 구조

문서 AI의 비용 병목은 페이지 단위 분할과 길어지는 KV cache다. Unlimited-OCR은 3B 전체 파라미터 중 500M만 활성화하면서 40쪽 문서와 32K 컨텍스트를 한 번에 처리한다고 소개됐다.

#baidu #ocr #document-ai

AI X/Twitter Jul 15, 2026 1 min read

NVIDIA Cosmos 3, 교통 영상 QA 정확도 54.41%에서 93.35%로 상승한 결과

NVIDIA가 Cosmos 3 Nano를 교통 안전 영상 QA에 맞춰 후처리해 정확도를 54.41%에서 93.35%까지 끌어올린 결과를 공개했다. agent가 LoRA와 AutoML을 실행한 점이 핵심이다.

#nvidia #cosmos #tao

AI X/Twitter Jul 8, 2026 1 min read

NVIDIA MOTIVE, video model 학습 clip 선별로 74.1% 선호도 확보

NVIDIA Research의 MOTIVE는 video model fine-tuning에서 움직임에 실제로 기여하는 clip을 골라내는 방법이다. ICML 2026 Outstanding Paper Honorable Mention을 받았고, base model 대비 74.1% human preference를 기록했다.

#nvidia #video-generation #icml-2026

LLM Hacker News Jul 2, 2026 1 min read

Senior SWE-Bench, agent 평가가 '시니어'라는 말에 걸린 이유

점수보다 논점이 더 흥미롭다. HN 댓글은 새 benchmark 자체보다 “시니어 엔지니어”를 어떻게 재현할 수 있느냐에 모였다.

#llm #agents #benchmark

LLM X/Twitter Jul 2, 2026 1 min read

NVIDIA TwoTower, 98.7% 품질 유지하며 생성 속도 2.42배 높인 확산 LLM

LLM 추론 속도를 높이는 다른 경로가 등장했다. NVIDIA의 Nemotron-Labs-TwoTower는 30B 백본을 두 타워 확산 모델로 바꿔 98.7% 품질과 2.42배 처리량을 동시에 제시했다.

#nvidia #nemotron #diffusion-llm

LLM Hacker News Jun 30, 2026 1 min read

GLM 5.2, Semgrep 보안 benchmark에서 Claude 추월

오픈 weight 모델이 실제 보안 버그 탐지 과제에서 Claude Code를 앞섰다는 점에 관심이 모였다.

#glm #security #benchmark

LLM Jun 29, 2026 2 min read

Snyk 300회 반복 테스트, LLM 보안 리뷰의 흔들리는 재현성

Snyk VulnBench JS 1.0은 같은 JavaScript 취약점 리뷰를 300번 반복해 LLM 보안 점검의 재현성을 측정했다. 최고 LLM 설정도 Snyk-reference F1 75.4%에 그쳤고, reference 밖 추가 보고의 49.7%는 5번 중 1번만 나타났다.

#snyk #security #benchmark

LLM X/Twitter Jun 21, 2026 1 min read

GLM 5.2, Vibe Code Bench 64%로 오픈웨이트 코딩 격차를 좁힌 새 기준

오픈웨이트 모델의 코딩 성능 경쟁이 새 기준선을 넘었다. Vals AI는 GLM 5.2가 Vibe Code Bench v1.1에서 64%를 기록해 다른 오픈웨이트 모델보다 최소 14%포인트 앞섰다고 밝혔다.

#glm-5-2 #open-weights #benchmark

Sciences X/Twitter Jun 18, 2026 1 min read

LifeSciBench 750개 생명과학 과제, AI 연구 평가 기준을 현장형으로 전환

생명과학 AI 평가가 실제 연구 업무에 가까워졌다. OpenAI는 바이오·제약 연구자 173명과 만든 750개 전문가 과제로 모델이 문헌 검토, 실험 설계, 분석 흐름을 얼마나 지원하는지 보겠다고 밝혔다.

#openai #lifescibench #biology

LLM Jun 13, 2026 1 min read

AgentPerf 첫 공개, GB300이 H200보다 MW당 coding agent 20배 처리

AI agent 인프라 경쟁이 토큰 처리량이 아니라 동시 작업 수와 전력 효율로 옮겨가고 있다. NVIDIA는 Artificial Analysis의 새 AA-AgentPerf에서 GB300 NVL72가 H200보다 MW당 동시 coding agent 처리량을 최대 20배 높였다고 밝혔다.

#nvidia #agentperf #benchmark