#evaluation

RSSフィード

LLM Reddit 6d ago 1 min read

Harness Training、agent改善をモデル本体から実行基盤へ移す試み

r/MachineLearningの新しいプロジェクトは、task LLMを固定したまま周辺のharnessを学習させる発想を示した。

#agents #harness-training #pytorch

LLM May 27, 2026 1 min read

SWE-bench順位も動く25.7%の欠陥、ベンチマーク監査が論点に

モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。

#benchmarks #swe-bench #agents

LLM Reddit Apr 28, 2026 1 min read

1930年で止まった13BモデルTalkie　r/singularityが夢中になった理由

r/singularityはこの発想にすぐ飛びついた。1930年以前のテキストだけで学習した13B modelという奇妙さだけではない。Talkieが、現代web汚染なしにモデルが何を学ぶのかを見る実験室として読めたからだ。

#talkie #language-models #historical-data

LLM Reddit Apr 27, 2026 1 min read

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。

#swe-bench #benchmarks #contamination

LLM Apr 17, 2026 1 min read

LLM judge、文書の33-67%で一貫性の崩れを隠した

新しいarXiv論文は、低い平均違反率の裏でLLM judgeの入力別不安定性が見えにくくなる問題を示した。SummEvalでは文書の33-67%に少なくとも1つのdirected 3-cycleがあり、prediction set widthはabsolute errorと強く結びついた。

#llm #evaluation #benchmarks

LLM Hacker News Apr 17, 2026 1 min read

Qwen3.6のpelican test、HNをbenchmark論争に変えた

HNがこの冗談めいたテストに食いついたのは、鮮やかなSVG一枚が小型local modelをflagship modelより良く見せる時、それが何を意味するのか誰も簡単に決められないからだ。

#qwen #claude #local-llms

AI Hacker News Apr 13, 2026 1 min read

Hacker Newsで続いたMythos後の論争: 小さなopen-weight modelでもAI security分析の一部を再現できるのか

1247ポイント、328コメントのHacker Newsスレッドで、AISLEはscoped contextがあれば小さなopen-weight modelでもMythos級のexploit analysisの一部を再現できると主張し、コメント欄はmethodologyを巡って大きく割れた。

#cybersecurity #open-models #llm

AI Hacker News Apr 13, 2026 1 min read

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い

520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。

#ai-agents #benchmarks #evaluation

AI Hacker News Apr 12, 2026 1 min read

BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか

UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。

#benchmarks #ai-agents #evaluation

AI X/Twitter Mar 30, 2026 1 min read

Google DeepMind、1万人超の参加者を用いた9件の研究から harmful manipulation 評価ツールキットを公開

Google DeepMindが、1万人超の参加者を対象にした9件の研究をもとに AI の harmful manipulation を測る評価ツールキットを公開した。金融と健康ではリスクの出方が異なり、評価は domain-specific に設計すべきだと示している。

#google-deepmind #ai-safety #manipulation

LLM Reddit Mar 30, 2026 1 min read

r/MachineLearningがLoCoMoのanswer key誤りとjudge脆弱性を指摘

Penfield LabsはLoCoMoの1,540問中99問にscoreを歪める誤りがあると主張し、gpt-4o-mini judgeが意図的に誤った回答の62.81%を通したと報告してbenchmarkの信頼性問題を浮かび上がらせた。

#benchmarks #memory-systems #evaluation

AI X/Twitter Mar 26, 2026 1 min read

Google DeepMind、有害なAI manipulationを実測するreal-world toolkitを公開

Google DeepMindは2026年3月26日、会話型AIが感情を悪用したり、人を有害な選択へ誘導したりする可能性を扱う新研究を公開した。英国・米国・インドの1万人超が参加した9件の研究をもとに、harmful AI manipulationを測定する初のempirically validated toolkitを構築したという。