最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。
#benchmarks
RSS Feedr/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。
r/MachineLearningでは、重みを変えずに中間7層ブロックを複製するだけでbenchmarkを押し上げたという実験ノートが注目を集めている。
NISTは2026年2月19日に公開したAI 800-3で、benchmark accuracyとgeneralized accuracyを明確に区別し、generalized linear mixed modelsによるuncertainty estimationを提案した。報告書は、frontier LLM benchmarkの解釈において hidden assumption や不十分な統計処理が意思決定を歪め得ると指摘している。
GoogleはGemini in Google SheetsがSpreadsheetBench全体で70.48%を記録し、human expert能力に近づいたと発表した。同社はこの結果をproduct-specific tuningと強化されたverbalization、coding capabilityの成果だと説明している。
r/LocalLLaMAの高反応投稿で、UnslothのQwen3.5-35B-A3B Dynamic GGUF更新が共有され、KLD/PPL指標と下流評価の両立が議論された。
OpenAIは2025-08-07にGPT-5を公開し、ChatGPTとAPIの同時展開を発表した。GPT-4o比でhallucinationを45%低減、HealthBench Hard 44.6などの指標を示し、実運用移行の判断材料を強化した。
r/singularityの人気投稿は、GoogleのGemini 3 Deep Think大規模アップデートを共有した。公式発表ではHLE 48.4%(toolsなし)、ARC-AGI-2 84.6%、Codeforces Elo 3455などの指標と、Gemini APIのearly accessが示された。
中国のGLM-5モデルがIntelligence Indexで50点を記録し、オープンソース大規模言語モデルの中で最高性能を達成しました。