145件のcoding evalで、r/LocalLLaMAはKimi K2.6とOpus 4.7を検証した

Community Spark

r/LocalLLaMA postは、Kimi K2.6-Code-Preview、Opus 4.7、GLM 5.1、Minimax M2.7などをcoding evalで比較し、SanityHarness leaderboardへ誘導した。投稿者はold/new leaderboardを合わせて145 resultsを持つと説明し、単発の印象ではなく継続的なcoding-agent evaluationsとして見せた。

何を測ったか

投稿ではSanityHarnessをcoding-agent-agnostic benchmarkとして説明している。GitHub READMEでは、isolated Docker containersでcompact but challenging problemsを走らせ、six languages、weighted scoring、integrity checks、hidden testsを含むと書かれている。今回のpassではKimi K2.6-Code-Previewをearly accessで試し、Opus 4.7、GLM 5.1、Minimax M2.7などと比較したという。

結果のねじれ

threadの焦点は単純なwinnerではなかった。投稿者はOpus 4.7がeval scoreでは高く出る一方、実際のcoding sessionではhallucinationと頑固な誤りが目立つと強く批判した。Kimi K2.6はKimi K2.5より良く、GLM 5.1より少し上に見えると評価している。Minimax M2.7やQwen 3.6 Plusはpriceやlocal availabilityの文脈では有用だが、最上位API modelsとはまだ差があるという整理だった。

コメントが加えた視点

コメント欄はbenchmarkの読み方を詰めた。あるユーザーはKimi-for-coding backendが指定したmodel IDを本当に尊重するのか不確実だと指摘した。別のユーザーは、自分のC、C++、Rust、LISP、math用途ではGPTとGemini 3.1 Proがまだ強いと述べた。つまりこのthreadの価値は順位表ではなく、provider routing、framework behavior、cost、task mix、scoreと日常使用の差を同時に見せた点にある。

Sources: r/LocalLLaMA discussion, SanityHarness leaderboard, SanityHarness GitHub.

145件のcoding evalで、r/LocalLLaMAはKimi K2.6とOpus 4.7を検証した

Community Spark

何を測ったか

結果のねじれ

コメントが加えた視点

Related Articles

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い

Ornith-1.0、agentic coding向けopen modelの実用ラインを試す

GitHub Copilot初のopen-weight選択肢にKimi K2.7 Code