145개 coding eval 결과에 r/LocalLLaMA가 Kimi K2.6·Opus 4.7을 따졌다

Community Spark

r/LocalLLaMA의 post는 Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1, Minimax M2.7 등을 coding eval로 비교했다는 내용으로 50 points를 넘겼다. 작성자는 SanityHarness와 SanityHarness leaderboard를 운영하며, old/new leaderboard를 합쳐 145개 results를 갖고 있다고 설명했다.

작성자가 제시한 방법

post에 따르면 SanityHarness는 coding-agent-agnostic eval을 목표로 하며, six languages의 tasks를 sandboxed Docker containers에서 실행한다. GitHub README는 compact but challenging problems, weighted scoring, BLAKE3 verification, hidden tests, bubblewrap sandboxing 같은 요소를 설명한다. 작성자는 이번 pass에서 Kimi K2.6-Code-Preview를 early access로 테스트했고, Opus 4.7, GLM 5.1, Minimax M2.7과 함께 비교했다고 적었다.

흥미로운 결과

작성자의 평가는 단순 ranking이 아니었다. Opus 4.7은 eval score는 높지만 실제 coding use에서는 hallucination과 stubborn wrongness가 심하다고 강하게 비판했다. Kimi K2.6은 Kimi K2.5보다 나아 보이며 GLM 5.1보다 약간 높게 본다고 썼다. Minimax M2.7과 Qwen 3.6 Plus 같은 middle tier도 price와 local-running 맥락에서는 유용하지만, upper tier 모델과는 여전히 차이가 있다고 정리했다.

댓글이 보탠 맥락

댓글들은 benchmark와 실제 사용 사이의 간격을 계속 물었다. 한 댓글은 Kimi-for-coding backend가 사용자가 지정한 model ID를 정말 존중하는지 불확실하다고 지적했고, 다른 댓글은 C/C++/Rust/LISP/math 같은 자기 use case에서는 GPT와 Gemini 3.1 Pro가 더 잘 맞는다고 말했다. 커뮤니티가 끌린 지점은 “누가 1등인가”가 아니라, coding agent eval이 provider routing, framework UX, cost, 실제 prompt behavior까지 얼마나 설명할 수 있는가였다.

Sources: r/LocalLLaMA discussion, SanityHarness leaderboard, SanityHarness GitHub.

LLM 4d ago 1 min read

LiteCoder, Terminal Bench Pro 31.5%로 코드 agent를 끌어올렸다

LiteCoder가 terminal 특화 모델만 내놓은 것이 아니라 11,255개 trajectory와 602개 Harbor 환경까지 함께 풀었다. 30B 모델은 Terminal Bench Pro에서 Pass@1 31.5%를 기록해 preview의 22.0%에서 크게 올라왔고, 작은 코드 agent도 아직 더 밀어 올릴 여지가 있다는 주장을 숫자로 뒷받침한다.

#litecoder #coding-agents #benchmarks

LLM Reddit 1d ago 1 min read

Opus 4.7 benchmark 급락에 Reddit이 본 것은 “모델이 약해졌나, 거절이 늘었나”였다

r/singularity의 Opus 4.7 thread가 뜨거웠던 이유는 41.0%라는 숫자보다 그 숫자의 원인을 둘러싼 해석 싸움이었다. NYT Connections extended benchmark에서 Opus 4.6의 94.7%와 대비되자, community는 capability regression과 refusal tuning을 나눠 보려 했다.

#claude #benchmarks #opus

LLM sources.twitter Apr 5, 2026 1 min read

Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개

Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.

#cursor #composer-2 #reinforcement-learning