Skip to content

#llm-evals

RSS Feed
AI Reddit Apr 10, 2026 1 min read

LocalLLaMA で強く共有された記事は、Anthropic Mythos が例示した脆弱性解析の一部を、より小さく安い open または low-cost model でもかなり再現できると主張した。ただし Reddit の中心的な反応は、isolated な vulnerable function を読むことと、大規模 codebase からその bug を見つけることは別問題だというものだった。

LLM Mar 12, 2026 1 min read

NISTは2026年2月19日に公開したAI 800-3で、benchmark accuracyとgeneralized accuracyを明確に区別し、generalized linear mixed modelsによるuncertainty estimationを提案した。報告書は、frontier LLM benchmarkの解釈において hidden assumption や不十分な統計処理が意思決定を歪め得ると指摘している。