速いkernelでも、実際のtraining分布では静かに壊れる。Redditでは、verifierだけではoptimizerやdataset依存の失敗を拾えない点が議論された。
#benchmarking
RSS Feedr/artificial のリンク投稿は、100 nonsense prompts と 3-judge panel を使う BullshitBench v2 を再び注目させた。現在の public leaderboard では Claude Sonnet 4.6 の high reasoning が 91% green rate、3% red rate で 1 位だが、community benchmark として読むべきという注意も必要だ。
Epoch AIがGPT-5.4 Proを使ったFrontierMath Open Problemsの組合せ論課題の解法を確認したと公表し、Hacker Newsの関心は単なるbenchmark scoreからexpert-verified research workflowへ移った。
r/LocalLLaMA の新しいスレッドでは、NVIDIA の Nemotron-Cascade-2-30B-A3B が medium Qwen 3.5 系より強い coding 結果を出せるとして注目を集めた。community benchmark と NVIDIA の model card を並べると、local inference のコストと reasoning 性能の新しい折り合いが見えてくる。
NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。
高反応を得たLocalLLaMAの追試投稿では、Qwen3.5-35B-A3BをRTX 5080環境で運用する際、Q4_K_M・KV q8_0・バッチ指定なしの--fit構成が実用面で有利と報告された。
r/MachineLearningの高評価投稿が、2025年のMLコンペ動向を整理。投稿者は約400件を追跡し、73件の優勝解法を分析したとして、Qwen系の台頭、効率化ツールの定着、計算資源の二極化を示した。
NISTのCAISIは、言語モデル向け自動ベンチマーク評価の草案 NIST AI 800-2 を公表し、2026年3月31日まで意見募集を実施している。草案は目的設定、実行手順、結果分析・報告の標準化を中心に構成される。