145개 coding eval 결과에 r/LocalLLaMA가 Kimi K2.6·Opus 4.7을 따졌다
Original: Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1, Minimax M2.7 and more tested in coding View original →
Community Spark
r/LocalLLaMA의 post는 Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1, Minimax M2.7 등을 coding eval로 비교했다는 내용으로 50 points를 넘겼다. 작성자는 SanityHarness와 SanityHarness leaderboard를 운영하며, old/new leaderboard를 합쳐 145개 results를 갖고 있다고 설명했다.
작성자가 제시한 방법
post에 따르면 SanityHarness는 coding-agent-agnostic eval을 목표로 하며, six languages의 tasks를 sandboxed Docker containers에서 실행한다. GitHub README는 compact but challenging problems, weighted scoring, BLAKE3 verification, hidden tests, bubblewrap sandboxing 같은 요소를 설명한다. 작성자는 이번 pass에서 Kimi K2.6-Code-Preview를 early access로 테스트했고, Opus 4.7, GLM 5.1, Minimax M2.7과 함께 비교했다고 적었다.
흥미로운 결과
작성자의 평가는 단순 ranking이 아니었다. Opus 4.7은 eval score는 높지만 실제 coding use에서는 hallucination과 stubborn wrongness가 심하다고 강하게 비판했다. Kimi K2.6은 Kimi K2.5보다 나아 보이며 GLM 5.1보다 약간 높게 본다고 썼다. Minimax M2.7과 Qwen 3.6 Plus 같은 middle tier도 price와 local-running 맥락에서는 유용하지만, upper tier 모델과는 여전히 차이가 있다고 정리했다.
댓글이 보탠 맥락
댓글들은 benchmark와 실제 사용 사이의 간격을 계속 물었다. 한 댓글은 Kimi-for-coding backend가 사용자가 지정한 model ID를 정말 존중하는지 불확실하다고 지적했고, 다른 댓글은 C/C++/Rust/LISP/math 같은 자기 use case에서는 GPT와 Gemini 3.1 Pro가 더 잘 맞는다고 말했다. 커뮤니티가 끌린 지점은 “누가 1등인가”가 아니라, coding agent eval이 provider routing, framework UX, cost, 실제 prompt behavior까지 얼마나 설명할 수 있는가였다.
Sources: r/LocalLLaMA discussion, SanityHarness leaderboard, SanityHarness GitHub.
Related Articles
LiteCoder가 terminal 특화 모델만 내놓은 것이 아니라 11,255개 trajectory와 602개 Harbor 환경까지 함께 풀었다. 30B 모델은 Terminal Bench Pro에서 Pass@1 31.5%를 기록해 preview의 22.0%에서 크게 올라왔고, 작은 코드 agent도 아직 더 밀어 올릴 여지가 있다는 주장을 숫자로 뒷받침한다.
r/singularity의 Opus 4.7 thread가 뜨거웠던 이유는 41.0%라는 숫자보다 그 숫자의 원인을 둘러싼 해석 싸움이었다. NYT Connections extended benchmark에서 Opus 4.6의 94.7%와 대비되자, community는 capability regression과 refusal tuning을 나눠 보려 했다.
Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.
Comments (0)
No comments yet. Be the first to comment!