`r/LocalLLaMA` の benchmark post は、TurboQuant KV cache compression により RTX 5090 1 枚で Gemma 4 31B を 256K context まで動かしたと主張する。速度だけでなく VRAM usage、Windows/MSVC build fix、KV quant の品質懸念まで共有している点が注目された。
#benchmarks
RSS FeedPenfield LabsはLoCoMoの1,540問中99問にscoreを歪める誤りがあると主張し、gpt-4o-mini judgeが意図的に誤った回答の62.81%を通したと報告してbenchmarkの信頼性問題を浮かび上がらせた。
ARC PrizeによるARC-AGI 3公開直後、r/singularityはinteractive environmentとaction-efficient scoringへの転換に注目した。要点は、frontier AIが未知環境での一般化・探索・計画ではまだ大きく遅れているということだ。
Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。
Google DeepMindは、AGIの進捗を評価するためのcognitive taxonomyを公開し、それを実際のbenchmarkに落とし込むKaggle hackathonも開始した。単一のheadline scoreではなく、10のcognitive abilityごとにAIをhuman baselineと比較する考え方が中心だ。
r/LocalLLaMA に投稿された rerun benchmark は、Apple M5 Max の強みが token generation 単体より prompt processing にあると主張する。Qwen 3.5 35B-A3B MoE の 2,845 tok/s PP512 などの数値は community measurement であり、独立 lab benchmark ではない。
新しい r/LocalLLaMA スレッドは、Graph-RAG の multi-hop QA における bottleneck が retrieval ではなく reasoning かもしれないという結果を押し上げた。structured prompting と graph-based context compression を組み合わせれば、open な Llama 8B が plain 70B baseline に対抗できるという主張が核だ。
Show HNで注目された llm-circuit-finder は、training や weight changes なしで layer routing だけで reasoning を押し上げられると主張する。ただし README の全体 benchmark は IFEval/MBPP と平均値の悪化も示しており、これは universal improvement というより capability steering と見る方が妥当だ。
Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。
Google DeepMindはXで、賞金総額20万ドルのKaggle hackathonを立ち上げ、AI向けの新しいcognitive evaluationを募集すると発表した。リンク先のGoogle記事は、この取り組みが単一benchmarkではなく、10のcognitive ability全体でAGIの進捗を測るより大きな枠組みの一部だと説明している。
OpenAIは2026年3月10日、frontier LLMのinstruction hierarchy挙動を改善し、safety steerabilityとprompt injection耐性を同時に高めるためのIH-Challengeを公開した。あわせて追加研究向けにdatasetもHugging Faceで公開している。
最近の r/LocalLLaMA で注目された投稿は、コミュニティがすでに 400 以上の model について約 1万件の Apple Silicon benchmark を提出したと述べている。重要なのは、散発的な体感談ではなく、M-series chip と context length ごとの傾向を比較できる shared dataset が立ち上がり始めた点だ。