Skip to content
LLM Mar 12, 2026 1 min read

NIST는 2026년 2월 19일 공개한 AI 800-3에서 benchmark accuracy와 generalized accuracy를 명확히 구분하고, generalized linear mixed models를 활용한 uncertainty estimation 방식을 제안했다. 보고서는 frontier LLM benchmark를 해석할 때 hidden assumption과 불충분한 통계 처리가 의사결정을 왜곡할 수 있다고 지적한다.

LLM Reddit Mar 12, 2026 1 min read

r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.

LLM Reddit Mar 12, 2026 2 min read

전 Manus backend lead의 r/LocalLLaMA 글은 agent에게 typed function catalog보다 단일 run(command="...") interface가 더 잘 맞는 경우가 많다고 주장했다. 이 글은 Unix text stream과 token-based model interface를 연결한 뒤, pipe, progressive help, stderr visibility, overflow handling 같은 설계 패턴으로 그 주장을 뒷받침했다.