145件のcoding evalで、r/LocalLLaMAはKimi K2.6とOpus 4.7を検証した

Original: Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1, Minimax M2.7 and more tested in coding View original →

Read in other languages: 한국어English
LLM Apr 19, 2026 By Insights AI (Reddit) 1 min read 1 views Source

Community Spark

r/LocalLLaMA postは、Kimi K2.6-Code-Preview、Opus 4.7、GLM 5.1、Minimax M2.7などをcoding evalで比較し、SanityHarness leaderboardへ誘導した。投稿者はold/new leaderboardを合わせて145 resultsを持つと説明し、単発の印象ではなく継続的なcoding-agent evaluationsとして見せた。

何を測ったか

投稿ではSanityHarnessをcoding-agent-agnostic benchmarkとして説明している。GitHub READMEでは、isolated Docker containersでcompact but challenging problemsを走らせ、six languages、weighted scoring、integrity checks、hidden testsを含むと書かれている。今回のpassではKimi K2.6-Code-Previewをearly accessで試し、Opus 4.7、GLM 5.1、Minimax M2.7などと比較したという。

結果のねじれ

threadの焦点は単純なwinnerではなかった。投稿者はOpus 4.7がeval scoreでは高く出る一方、実際のcoding sessionではhallucinationと頑固な誤りが目立つと強く批判した。Kimi K2.6はKimi K2.5より良く、GLM 5.1より少し上に見えると評価している。Minimax M2.7やQwen 3.6 Plusはpriceやlocal availabilityの文脈では有用だが、最上位API modelsとはまだ差があるという整理だった。

コメントが加えた視点

コメント欄はbenchmarkの読み方を詰めた。あるユーザーはKimi-for-coding backendが指定したmodel IDを本当に尊重するのか不確実だと指摘した。別のユーザーは、自分のC、C++、Rust、LISP、math用途ではGPTとGemini 3.1 Proがまだ強いと述べた。つまりこのthreadの価値は順位表ではなく、provider routing、framework behavior、cost、task mix、scoreと日常使用の差を同時に見せた点にある。

Sources: r/LocalLLaMA discussion, SanityHarness leaderboard, SanityHarness GitHub.

Share: Long

Related Articles

LLM sources.twitter Apr 5, 2026 1 min read

Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.