145개 coding eval 결과에 r/LocalLLaMA가 Kimi K2.6·Opus 4.7을 따졌다

Community Spark

r/LocalLLaMA의 post는 Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1, Minimax M2.7 등을 coding eval로 비교했다는 내용으로 50 points를 넘겼다. 작성자는 SanityHarness와 SanityHarness leaderboard를 운영하며, old/new leaderboard를 합쳐 145개 results를 갖고 있다고 설명했다.

작성자가 제시한 방법

post에 따르면 SanityHarness는 coding-agent-agnostic eval을 목표로 하며, six languages의 tasks를 sandboxed Docker containers에서 실행한다. GitHub README는 compact but challenging problems, weighted scoring, BLAKE3 verification, hidden tests, bubblewrap sandboxing 같은 요소를 설명한다. 작성자는 이번 pass에서 Kimi K2.6-Code-Preview를 early access로 테스트했고, Opus 4.7, GLM 5.1, Minimax M2.7과 함께 비교했다고 적었다.

흥미로운 결과

작성자의 평가는 단순 ranking이 아니었다. Opus 4.7은 eval score는 높지만 실제 coding use에서는 hallucination과 stubborn wrongness가 심하다고 강하게 비판했다. Kimi K2.6은 Kimi K2.5보다 나아 보이며 GLM 5.1보다 약간 높게 본다고 썼다. Minimax M2.7과 Qwen 3.6 Plus 같은 middle tier도 price와 local-running 맥락에서는 유용하지만, upper tier 모델과는 여전히 차이가 있다고 정리했다.

댓글이 보탠 맥락

댓글들은 benchmark와 실제 사용 사이의 간격을 계속 물었다. 한 댓글은 Kimi-for-coding backend가 사용자가 지정한 model ID를 정말 존중하는지 불확실하다고 지적했고, 다른 댓글은 C/C++/Rust/LISP/math 같은 자기 use case에서는 GPT와 Gemini 3.1 Pro가 더 잘 맞는다고 말했다. 커뮤니티가 끌린 지점은 “누가 1등인가”가 아니라, coding agent eval이 provider routing, framework UX, cost, 실제 prompt behavior까지 얼마나 설명할 수 있는가였다.

Sources: r/LocalLLaMA discussion, SanityHarness leaderboard, SanityHarness GitHub.

145개 coding eval 결과에 r/LocalLLaMA가 Kimi K2.6·Opus 4.7을 따졌다

Community Spark

작성자가 제시한 방법

흥미로운 결과

댓글이 보탠 맥락

Related Articles

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가

Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개

로컬 코딩 모델 38.2%, LocalLLaMA가 본 건 점수보다 배치 가능성

Related Articles

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가

Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개
LLM X/Twitter Apr 5, 2026 1 min read

로컬 코딩 모델 38.2%, LocalLLaMA가 본 건 점수보다 배치 가능성
LLM Reddit Apr 28, 2026 1 min read