145件のcoding evalで、r/LocalLLaMAはKimi K2.6とOpus 4.7を検証した

Community Spark

r/LocalLLaMA postは、Kimi K2.6-Code-Preview、Opus 4.7、GLM 5.1、Minimax M2.7などをcoding evalで比較し、SanityHarness leaderboardへ誘導した。投稿者はold/new leaderboardを合わせて145 resultsを持つと説明し、単発の印象ではなく継続的なcoding-agent evaluationsとして見せた。

何を測ったか

投稿ではSanityHarnessをcoding-agent-agnostic benchmarkとして説明している。GitHub READMEでは、isolated Docker containersでcompact but challenging problemsを走らせ、six languages、weighted scoring、integrity checks、hidden testsを含むと書かれている。今回のpassではKimi K2.6-Code-Previewをearly accessで試し、Opus 4.7、GLM 5.1、Minimax M2.7などと比較したという。

結果のねじれ

threadの焦点は単純なwinnerではなかった。投稿者はOpus 4.7がeval scoreでは高く出る一方、実際のcoding sessionではhallucinationと頑固な誤りが目立つと強く批判した。Kimi K2.6はKimi K2.5より良く、GLM 5.1より少し上に見えると評価している。Minimax M2.7やQwen 3.6 Plusはpriceやlocal availabilityの文脈では有用だが、最上位API modelsとはまだ差があるという整理だった。

コメントが加えた視点

コメント欄はbenchmarkの読み方を詰めた。あるユーザーはKimi-for-coding backendが指定したmodel IDを本当に尊重するのか不確実だと指摘した。別のユーザーは、自分のC、C++、Rust、LISP、math用途ではGPTとGemini 3.1 Proがまだ強いと述べた。つまりこのthreadの価値は順位表ではなく、provider routing、framework behavior、cost、task mix、scoreと日常使用の差を同時に見せた点にある。

Sources: r/LocalLLaMA discussion, SanityHarness leaderboard, SanityHarness GitHub.

LLM 4d ago 1 min read

LiteCoder、Terminal Bench Pro 31.5%でコードagentを押し上げた

LiteCoderはterminal特化modelだけでなく、11,255 trajectoriesと602 Harbor environmentsまでまとめて公開した。30B modelはTerminal Bench ProでPass@1 31.5%に到達し、previewの22.0%から大きく伸びており、小さめのcoding agentにもまだ伸びしろがあることを数字で示している。

#litecoder #coding-agents #benchmarks

LLM Reddit 1d ago 1 min read

Opus 4.7のReddit騒動、争点は性能低下かrefusal増加かだった

r/singularityが反応したのは、Opus 4.7 highが41.0%、Opus 4.6が94.7%という数字だけではない。Communityは、その差が能力低下なのか、refusal policyなのか、benchmark解釈なのかを切り分けようとしていた。

#claude #benchmarks #opus

LLM sources.twitter Apr 5, 2026 1 min read

Cursor、継続事前学習から実運用RLまで Composer 2 の学習スタックを公開

Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。

#cursor #composer-2 #reinforcement-learning