#benchmarks

AI Hacker News Apr 12, 2026 1 min read

BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか

UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。

#benchmarks #ai-agents #evaluation

LLM Reddit Apr 10, 2026 1 min read

LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。

#qwen #blackwell #inference

LLM Reddit Apr 5, 2026 1 min read

Gemma 4 と Qwen 3.5 のブラインド比較が LocalLLaMA で話題、「勝率」と「平均点」が分かれる

Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27B を 30 問で比べた LocalLLaMA の実験は、単純な single winner を示さなかった。Qwen は多くの matchups を取った一方で、Gemma はより安定した average score を見せ、reliability と verbosity の trade-off が前面に出ている。

#gemma-4 #qwen3.5 #benchmarks

LLM X/Twitter Apr 5, 2026 1 min read

Cursor、継続事前学習から実運用RLまで Composer 2 の学習スタックを公開

Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。

#cursor #composer-2 #reinforcement-learning

LLM Reddit Apr 5, 2026 1 min read

LocalLLaMAで議論: Gemma 4 31B の FoodTruck Bench 上位進出

LocalLLaMA のスレッドが Gemma 4 31B の予想外に強い FoodTruck Bench 成績を取り上げた。議論はすぐに長期計画能力と benchmark の信頼性へ広がった。

#llm #gemma #benchmarks

LLM Reddit Apr 4, 2026 1 min read

LocalLLaMA、RTX 5090 1枚で Gemma 4 31B の 256K context benchmark を共有

`r/LocalLLaMA` の benchmark post は、TurboQuant KV cache compression により RTX 5090 1 枚で Gemma 4 31B を 256K context まで動かしたと主張する。速度だけでなく VRAM usage、Windows/MSVC build fix、KV quant の品質懸念まで共有している点が注目された。

#gemma4 #llama.cpp #kv-cache

LLM Reddit Mar 30, 2026 1 min read

r/MachineLearningがLoCoMoのanswer key誤りとjudge脆弱性を指摘

Penfield LabsはLoCoMoの1,540問中99問にscoreを歪める誤りがあると主張し、gpt-4o-mini judgeが意図的に誤った回答の62.81%を通したと報告してbenchmarkの信頼性問題を浮かび上がらせた。

#benchmarks #memory-systems #evaluation

AI Reddit Mar 30, 2026 1 min read

r/singularityが注目したARC-AGI 3、行動効率まで測る新しい一般化評価

ARC PrizeによるARC-AGI 3公開直後、r/singularityはinteractive environmentとaction-efficient scoringへの転換に注目した。要点は、frontier AIが未知環境での一般化・探索・計画ではまだ大きく遅れているということだ。

#arc-agi #benchmarks #reasoning

LLM Hacker News Mar 28, 2026 1 min read

Hacker Newsが注目した ATLAS、local coding agent の採算を揺らす

Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。

#coding-agents #benchmarks #local-inference

LLM Mar 24, 2026 1 min read

Google DeepMind、AGI進捗を測るcognitive frameworkを公開

Google DeepMindは、AGIの進捗を評価するためのcognitive taxonomyを公開し、それを実際のbenchmarkに落とし込むKaggle hackathonも開始した。単一のheadline scoreではなく、10のcognitive abilityごとにAIをhuman baselineと比較する考え方が中心だ。

#deepmind #agi #benchmarks

LLM Reddit Mar 23, 2026 1 min read

r/LocalLLaMA benchmark、M5 Max は MoE の prompt processing で特に強いという主張

r/LocalLLaMA に投稿された rerun benchmark は、Apple M5 Max の強みが token generation 単体より prompt processing にあると主張する。Qwen 3.5 35B-A3B MoE の 2,845 tok/s PP512 などの数値は community measurement であり、独立 lab benchmark ではない。

#apple-silicon #llama.cpp #mlx

LLM Reddit Mar 22, 2026 1 min read

r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる

新しい r/LocalLLaMA スレッドは、Graph-RAG の multi-hop QA における bottleneck が retrieval ではなく reasoning かもしれないという結果を押し上げた。structured prompting と graph-based context compression を組み合わせれば、open な Llama 8B が plain 70B baseline に対抗できるという主張が核だ。

#graph-rag #llama #reasoning