#benchmarking

LLM Reddit May 28, 2026 1 min read

AI生成CUDA kernel、benchmark通過後にtrainingを壊したbf16の罠

速いkernelでも、実際のtraining分布では静かに壊れる。Redditでは、verifierだけではoptimizerやdataset依存の失敗を拾えない点が議論された。

AI Reddit Mar 29, 2026 1 min read

r/artificial が再び広めた BullshitBench v2、Claude が nonsense detection leaderboard の先頭へ

r/artificial のリンク投稿は、100 nonsense prompts と 3-judge panel を使う BullshitBench v2 を再び注目させた。現在の public leaderboard では Claude Sonnet 4.6 の high reasoning が 91% green rate、3% red rate で 1 位だが、community benchmark として読むべきという注意も必要だ。

#ai-evals #benchmarking #claude

Sciences Hacker News Mar 24, 2026 1 min read

HNで注目されたEpoch FrontierMath確認、GPT-5.4 Proの数学性能を巡る議論が再燃

Epoch AIがGPT-5.4 Proを使ったFrontierMath Open Problemsの組合せ論課題の解法を確認したと公表し、Hacker Newsの関心は単なるbenchmark scoreからexpert-verified research workflowへ移った。

#frontiermath #gpt-5.4 #mathematics

LLM Reddit Mar 22, 2026 1 min read

r/LocalLLaMAが再評価するNemotron Cascade、小さなactivated paramsで強いcoding性能

r/LocalLLaMA の新しいスレッドでは、NVIDIA の Nemotron-Cascade-2-30B-A3B が medium Qwen 3.5 系より強い coding 結果を出せるとして注目を集めた。community benchmark と NVIDIA の model card を並べると、local inference のコストと reasoning 性能の新しい折り合いが見えてくる。

#nvidia #nemotron #local-llm

AI X/Twitter Mar 20, 2026 1 min read

NVIDIA、GPU kernel最適化をhardware限界で測るSOL-ExecBenchを公開

NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。

#nvidia #cuda #benchmarking

LLM Reddit Feb 28, 2026 1 min read

r/LocalLLaMA追試: RTX 5080 16GBではQ4_K_M + fit-nobatch構成が有力

高反応を得たLocalLLaMAの追試投稿では、Qwen3.5-35B-A3BをRTX 5080環境で運用する際、Q4_K_M・KV q8_0・バッチ指定なしの--fit構成が実用面で有利と報告された。

#qwen #llama-cpp #quantization

AI Reddit Feb 20, 2026 1 min read

r/MachineLearning投稿：2025年のMLコンペ350件超から見える実戦トレンド

r/MachineLearningの高評価投稿が、2025年のMLコンペ動向を整理。投稿者は約400件を追跡し、73件の優勝解法を分析したとして、Qwen系の台頭、効率化ツールの定着、計算資源の二極化を示した。

#machine-learning #competitions #kaggle

LLM Feb 15, 2026 1 min read

NIST、言語モデル自動ベンチマーク評価ガイド草案への意見募集を開始

NISTのCAISIは、言語モデル向け自動ベンチマーク評価の草案 NIST AI 800-2 を公表し、2026年3月31日まで意見募集を実施している。草案は目的設定、実行手順、結果分析・報告の標準化を中心に構成される。

#nist #caisi #benchmarking