속도만 빠른 kernel은 연구 결과까지 오염시킬 수 있다는 사례가 올라왔다. 관심은 “verifier 통과”가 실제 training 안전성을 보장하지 못한다는 점에 모였다.
#benchmarking
RSS Feedr/artificial 링크 포스트는 100 nonsense prompts와 3-judge panel을 사용하는 BullshitBench v2를 다시 주목하게 했다. 현재 공개 leaderboard에서는 Claude Sonnet 4.6 high reasoning이 91% green rate와 3% red rate로 1위에 올라 있지만, community benchmark라는 점은 함께 읽어야 한다.
Epoch AI가 GPT-5.4 Pro를 활용한 FrontierMath Open Problems 조합론 과제 해법을 확인했다고 밝히면서, HN의 초점이 단순 benchmark score보다 expert-verified research workflow로 옮겨갔다.
r/LocalLLaMA의 새 스레드는 NVIDIA의 Nemotron-Cascade-2-30B-A3B가 중형 Qwen 3.5 계열보다 더 강한 coding 결과를 낼 수 있다고 주장하며 주목을 끌었다. community benchmark와 NVIDIA의 model card를 함께 보면, local inference 비용과 reasoning 성능 사이의 새로운 균형점을 찾으려는 흐름이 읽힌다.
NVIDIA는 2026년 3월 20일 실제 GPU kernel workload를 대상으로 CUDA·PyTorch 최적화 코드를 NVIDIA B200 기반 Speed-of-Light 한계와 비교하는 SOL-ExecBench를 발표했다. 이번 공개에는 124개 AI 모델에서 추출한 235개 kernel optimization 문제가 BF16, FP8, NVFP4 workload와 함께 포함됐다.
높은 반응을 얻은 LocalLLaMA 후속 실험 글은 Qwen3.5-35B-A3B를 RTX 5080 환경에서 Q4_K_M, KV q8_0, 배치 플래그 없는 --fit 구성으로 운용할 때 가장 실용적인 결과를 제시했다.
r/MachineLearning 인기 글에서 2025년 ML 대회 생태계를 정리했다. 작성자는 약 400개 대회를 추적하고 73개 우승 솔루션 정보를 수집했으며, Qwen 계열·vLLM·Unsloth·대규모 GPU 사용 증가 등을 핵심 변화로 제시했다.
NIST 산하 CAISI는 2026년 1월 30일 언어모델 자동 벤치마크 평가 가이드 초안 NIST AI 800-2를 공개하고 3월 31일까지 공개 의견을 받는다. 문서는 평가 목표 정의, 실행, 결과 분석·보고의 실무 절차를 제시한다.