#benchmarking

LLM Reddit May 28, 2026 1 min read

AI 생성 CUDA kernel, benchmark 통과 뒤 training을 망가뜨린 bf16 함정

속도만 빠른 kernel은 연구 결과까지 오염시킬 수 있다는 사례가 올라왔다. 관심은 “verifier 통과”가 실제 training 안전성을 보장하지 못한다는 점에 모였다.

AI Reddit Mar 29, 2026 1 min read

r/artificial이 다시 띄운 BullshitBench v2, Claude가 nonsense detection leaderboard 선두

r/artificial 링크 포스트는 100 nonsense prompts와 3-judge panel을 사용하는 BullshitBench v2를 다시 주목하게 했다. 현재 공개 leaderboard에서는 Claude Sonnet 4.6 high reasoning이 91% green rate와 3% red rate로 1위에 올라 있지만, community benchmark라는 점은 함께 읽어야 한다.

#ai-evals #benchmarking #claude

Sciences Hacker News Mar 24, 2026 1 min read

HN에서 주목한 Epoch FrontierMath 검증, GPT-5.4 Pro 수학 성능 논쟁을 다시 흔들다

Epoch AI가 GPT-5.4 Pro를 활용한 FrontierMath Open Problems 조합론 과제 해법을 확인했다고 밝히면서, HN의 초점이 단순 benchmark score보다 expert-verified research workflow로 옮겨갔다.

#frontiermath #gpt-5.4 #mathematics

LLM Reddit Mar 22, 2026 1 min read

r/LocalLLaMA가 재조명한 Nemotron Cascade, 작은 activated params로도 강한 coding 성능

r/LocalLLaMA의 새 스레드는 NVIDIA의 Nemotron-Cascade-2-30B-A3B가 중형 Qwen 3.5 계열보다 더 강한 coding 결과를 낼 수 있다고 주장하며 주목을 끌었다. community benchmark와 NVIDIA의 model card를 함께 보면, local inference 비용과 reasoning 성능 사이의 새로운 균형점을 찾으려는 흐름이 읽힌다.

#nvidia #nemotron #local-llm

AI X/Twitter Mar 20, 2026 1 min read

NVIDIA, GPU kernel 최적화를 hardware 한계 기준으로 재는 SOL-ExecBench 공개

NVIDIA는 2026년 3월 20일 실제 GPU kernel workload를 대상으로 CUDA·PyTorch 최적화 코드를 NVIDIA B200 기반 Speed-of-Light 한계와 비교하는 SOL-ExecBench를 발표했다. 이번 공개에는 124개 AI 모델에서 추출한 235개 kernel optimization 문제가 BF16, FP8, NVFP4 workload와 함께 포함됐다.

#nvidia #cuda #benchmarking

LLM Reddit Feb 28, 2026 1 min read

r/LocalLLaMA 후속 벤치마크: RTX 5080 16GB에서 Q4_K_M + fit-nobatch 조합 우세

높은 반응을 얻은 LocalLLaMA 후속 실험 글은 Qwen3.5-35B-A3B를 RTX 5080 환경에서 Q4_K_M, KV q8_0, 배치 플래그 없는 --fit 구성으로 운용할 때 가장 실용적인 결과를 제시했다.

#qwen #llama-cpp #quantization

AI Reddit Feb 20, 2026 1 min read

r/MachineLearning: 2025년 ML 대회 350+건 분석에서 드러난 실전 트렌드

r/MachineLearning 인기 글에서 2025년 ML 대회 생태계를 정리했다. 작성자는 약 400개 대회를 추적하고 73개 우승 솔루션 정보를 수집했으며, Qwen 계열·vLLM·Unsloth·대규모 GPU 사용 증가 등을 핵심 변화로 제시했다.

#machine-learning #competitions #kaggle

LLM Feb 15, 2026 1 min read

NIST, 언어모델 자동 벤치마크 평가 초안(NIST AI 800-2) 의견수렴 시작

NIST 산하 CAISI는 2026년 1월 30일 언어모델 자동 벤치마크 평가 가이드 초안 NIST AI 800-2를 공개하고 3월 31일까지 공개 의견을 받는다. 문서는 평가 목표 정의, 실행, 결과 분석·보고의 실무 절차를 제시한다.

#nist #caisi #benchmarking