#benchmarks

RSSフィード

LLM 1d ago 1 min read

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い

高性能モデルの競争軸が、最高点だけでなく費用対効果へ移っている。Claude Opus 5はFable 5に近いcoding・知識作業性能を掲げ、API価格は入力$5/M・出力$25/M tokensに据え置かれた。

#anthropic #claude #coding-agents

LLM X/Twitter Jul 19, 2026 1 min read

Kimi K3、非公開サイバー評価でGPT-5.6に対する費用優位を示す

大規模コードのセキュリティ解析では、最高精度だけでなく実行単価が重くなる。Malte Ublは非公開Deepsec評価でGPT-5.6 Solが最高の再現率・精度だった一方、実行費用は次点の7倍超だったと述べた。

#kimi-k3 #cybersecurity #benchmarks

LLM Jul 18, 2026 1 min read

GPT-5.6 Sol、DeepSWE 72.7%でAI投資の物差しを「完了タスク単価」へ

OpenAIは、AIの費用対効果をトークン単価ではなく成功タスクあたりのコストで測るべきだと示した。GPT-5.6 SolはDeepSWE v1.1で72.7%を記録し、Claude Fable 5の69.9%を上回り、推定APIコストは36.2%低いとされる。

#openai #gpt-5.6 #benchmarks

LLM X/Twitter Jul 10, 2026 1 min read

SWE-Bench Proの30%に欠陥、OpenAIがcoding評価推奨を撤回

OpenAIはSWE-Bench Proの公開taskの30%が壊れており、frontier coding能力を安定して測れないとした。隠れた要件、矛盾した指示、厳しすぎるtest、不完全な採点基準が原因として挙げられている。

#openai #swe-bench #coding-agents

LLM X/Twitter Jul 10, 2026 1 min read

GPT-5.6、ChatGPT・Codex・API投入と80.0 coding agent指標

GPT-5.6 Sol、Terra、LunaがChatGPT、Codex、APIで利用段階に入った。OpenAIはCoding Agent Index 80.0、Claude Fable 5比+2.8点、出力tokenと時間は半分未満という比較も示した。

#openai #gpt-5-6 #codex

LLM Jul 3, 2026 1 min read

SkillOpt、重みを変えずagent scoreを23.5pt押し上げるskill学習

agent改善は必ずしも新モデルやfine-tuningではない。Microsoft ResearchのSkillOptはGPT-5.5 direct chatの6 benchmark平均を58.8から82.3へ上げ、52評価セルすべてで最高または同率最高だった。

#microsoft-research #agents #skillopt

Sciences X/Twitter Jul 1, 2026 1 min read

GeneBench-Pro、biology agent評価を129問の研究判断ベンチマークへ

生物学向けAI agentの評価は、知識問題から研究判断の再現へ移っている。GeneBench-Proは129件の計算生物学問題を扱い、GPT-5.6 Solでも最高推論設定で28.7%、Pro modeで31.5%にとどまる。

#openai #genebench-pro #biology

LLM Hacker News Jun 30, 2026 1 min read

Ornith-1.0、agentic coding向けopen modelの実用ラインを試す

HNでの関心はbenchmark表だけでなく、実際のcoding loopで速く安定して使えるかに集まった。

#ornith #coding-agents #open-models

LLM Jun 30, 2026 1 min read

Arena、1,000万件のモデル投票を年換算$100M事業へ

AIモデル比較で知られるArenaが、商用評価サービスの開始から8カ月で年換算$100Mの売上規模に到達した。1,000万件超のユーザー評価が、モデル研究所と企業向けの有料インフラになりつつある。

#arena #benchmarks #evaluations

LLM X/Twitter Jun 30, 2026 1 min read

OpenRouter、GPQA・TAU-Benchのlive scoreをtool routingへ接続

OpenRouterはopen-weight modelにGPQAとTAU-Benchを継続実行し、AutoExacto routingへ反映していると説明した。GLM 5.2ページでは1M token contextや$0.94/$3 per 1M pricingも並べて見せている。

#openrouter #benchmarks #routing

LLM X/Twitter Jun 30, 2026 1 min read

GitHub Copilot harness、5つのcoding benchでtoken効率を提示

GitHubはCopilot agentic harnessを5種類のtask suiteでmodel標準harnessと比較した。同じmodelとtask条件で、解決率は同等水準、token使用量は多くの構成で少ないという結果だ。

#github #copilot #agents

LLM X/Twitter Jun 29, 2026 1 min read

Open-weight 4モデル、安い推論から実運用エージェント基盤へ移った品質・価格競争の新局面へ

Open-weight LLMの争点は、単価比較からエージェント実装の設計へ移っている。OpenRouterはJune 2026の4モデルを挙げ、DeepSeek V4 FlashのSWE-bench 79.0%、GLM 5.2のAA Index 51、1M contextを具体例にした。

#openrouter #open-weight #benchmarks