145件のcoding evalで、r/LocalLLaMAはKimi K2.6とOpus 4.7を検証した
Original: Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1, Minimax M2.7 and more tested in coding View original →
Community Spark
r/LocalLLaMA postは、Kimi K2.6-Code-Preview、Opus 4.7、GLM 5.1、Minimax M2.7などをcoding evalで比較し、SanityHarness leaderboardへ誘導した。投稿者はold/new leaderboardを合わせて145 resultsを持つと説明し、単発の印象ではなく継続的なcoding-agent evaluationsとして見せた。
何を測ったか
投稿ではSanityHarnessをcoding-agent-agnostic benchmarkとして説明している。GitHub READMEでは、isolated Docker containersでcompact but challenging problemsを走らせ、six languages、weighted scoring、integrity checks、hidden testsを含むと書かれている。今回のpassではKimi K2.6-Code-Previewをearly accessで試し、Opus 4.7、GLM 5.1、Minimax M2.7などと比較したという。
結果のねじれ
threadの焦点は単純なwinnerではなかった。投稿者はOpus 4.7がeval scoreでは高く出る一方、実際のcoding sessionではhallucinationと頑固な誤りが目立つと強く批判した。Kimi K2.6はKimi K2.5より良く、GLM 5.1より少し上に見えると評価している。Minimax M2.7やQwen 3.6 Plusはpriceやlocal availabilityの文脈では有用だが、最上位API modelsとはまだ差があるという整理だった。
コメントが加えた視点
コメント欄はbenchmarkの読み方を詰めた。あるユーザーはKimi-for-coding backendが指定したmodel IDを本当に尊重するのか不確実だと指摘した。別のユーザーは、自分のC、C++、Rust、LISP、math用途ではGPTとGemini 3.1 Proがまだ強いと述べた。つまりこのthreadの価値は順位表ではなく、provider routing、framework behavior、cost、task mix、scoreと日常使用の差を同時に見せた点にある。
Sources: r/LocalLLaMA discussion, SanityHarness leaderboard, SanityHarness GitHub.
Related Articles
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。
LocalLLaMAが熱くなった理由は絶対値の点数だけではない。2026年4月28日のこの投稿は、Qwen 3.6-27BのTerminal-Bench 2.0での38.2%をlate-2025 frontier相当と結びつけ、ローカルコーディングを導入判断の土俵に乗せた。