145件のcoding evalで、r/LocalLLaMAはKimi K2.6とOpus 4.7を検証した
Original: Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1, Minimax M2.7 and more tested in coding View original →
Community Spark
r/LocalLLaMA postは、Kimi K2.6-Code-Preview、Opus 4.7、GLM 5.1、Minimax M2.7などをcoding evalで比較し、SanityHarness leaderboardへ誘導した。投稿者はold/new leaderboardを合わせて145 resultsを持つと説明し、単発の印象ではなく継続的なcoding-agent evaluationsとして見せた。
何を測ったか
投稿ではSanityHarnessをcoding-agent-agnostic benchmarkとして説明している。GitHub READMEでは、isolated Docker containersでcompact but challenging problemsを走らせ、six languages、weighted scoring、integrity checks、hidden testsを含むと書かれている。今回のpassではKimi K2.6-Code-Previewをearly accessで試し、Opus 4.7、GLM 5.1、Minimax M2.7などと比較したという。
結果のねじれ
threadの焦点は単純なwinnerではなかった。投稿者はOpus 4.7がeval scoreでは高く出る一方、実際のcoding sessionではhallucinationと頑固な誤りが目立つと強く批判した。Kimi K2.6はKimi K2.5より良く、GLM 5.1より少し上に見えると評価している。Minimax M2.7やQwen 3.6 Plusはpriceやlocal availabilityの文脈では有用だが、最上位API modelsとはまだ差があるという整理だった。
コメントが加えた視点
コメント欄はbenchmarkの読み方を詰めた。あるユーザーはKimi-for-coding backendが指定したmodel IDを本当に尊重するのか不確実だと指摘した。別のユーザーは、自分のC、C++、Rust、LISP、math用途ではGPTとGemini 3.1 Proがまだ強いと述べた。つまりこのthreadの価値は順位表ではなく、provider routing、framework behavior、cost、task mix、scoreと日常使用の差を同時に見せた点にある。
Sources: r/LocalLLaMA discussion, SanityHarness leaderboard, SanityHarness GitHub.
Related Articles
LiteCoderはterminal特化modelだけでなく、11,255 trajectoriesと602 Harbor environmentsまでまとめて公開した。30B modelはTerminal Bench ProでPass@1 31.5%に到達し、previewの22.0%から大きく伸びており、小さめのcoding agentにもまだ伸びしろがあることを数字で示している。
r/singularityが反応したのは、Opus 4.7 highが41.0%、Opus 4.6が94.7%という数字だけではない。Communityは、その差が能力低下なのか、refusal policyなのか、benchmark解釈なのかを切り分けようとしていた。
Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。
Comments (0)
No comments yet. Be the first to comment!