#glmm - Insights

LLM Mar 12, 2026 1 min read

NIST、AI 800-3で benchmark accuracy と generalized accuracy を分ける evaluation指針を提示

NISTは2026年2月19日に公開したAI 800-3で、benchmark accuracyとgeneralized accuracyを明確に区別し、generalized linear mixed modelsによるuncertainty estimationを提案した。報告書は、frontier LLM benchmarkの解釈において hidden assumption や不十分な統計処理が意思決定を歪め得ると指摘している。

#nist #llm-evals #benchmarks