Skip to content

#benchmarks

RSS Feed
LLM Reddit Mar 14, 2026 1 min read

最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。

LLM Reddit Mar 13, 2026 1 min read

r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。

LLM Mar 12, 2026 1 min read

NISTは2026年2月19日に公開したAI 800-3で、benchmark accuracyとgeneralized accuracyを明確に区別し、generalized linear mixed modelsによるuncertainty estimationを提案した。報告書は、frontier LLM benchmarkの解釈において hidden assumption や不十分な統計処理が意思決定を歪め得ると指摘している。