로컬 코딩 모델 38.2%, LocalLLaMA가 본 건 점수보다 배치 가능성

LocalLLaMA가 이 글에 반응한 이유는 38.2%라는 숫자 자체보다 그 숫자가 놓인 좌표에 있다. 게시자는 open-weight 27B-32B 모델들을 Terminal-Bench 2.0 89개 작업에 돌렸고, 기본 per-task timeout 조건에서 Qwen 3.6-27B가 34/89, 즉 38.2%를 기록했다고 정리했다. 포인트는 "최고 성능"가 아니라 "이제 어디에 써먹을 수 있나"다.

연결 고리는 late-2025 frontier와의 시간 비교다. 글은 이 수치를 verified leaderboard의 과거 구간에 겹쳐 읽는다. Terminus 2 + Claude Opus 4.1이 38.0%, GPT-5.1-Codex가 36.9%, Claude Code + Sonnet 4.5가 40.1%, Codex CLI + GPT-5-Codex가 44.3%였다. 즉 오늘의 오프라인 최고점이 대략 6~8개월 전 hosted frontier와 비슷한 띠에 들어왔다는 주장이다. 절대 성능으로는 아직 80% 안팎의 최신 hosted agent와 거리가 있지만, 로컬 모델이 "실전 배치 가능한 이전 세대" 수준에는 도달했다는 메시지가 훨씬 크게 들린다.

스레드 바깥의 링크드 블로그는 이 해석을 더 밀어붙인다. 같은 Qwen 3.6-27B도 기본 timeout에서는 38.2%지만, Qwen 측 3시간 timeout 설정에서는 59.3%까지 간다. 즉 실패 중 상당수는 정답을 못 찾는 문제보다 시간 초과 문제라는 뜻이다. 또 64 GB RAM + RTX 3060 12 GB 같은 평범한 데스크톱에서는 MoE 모델이 dense 모델보다 체감이 낫고, RTX 5090 32 GB에서는 dense 27B도 대화형 속도로 올라온다고 적었다.

벤치마크: Terminal-Bench 2.0, 89 tasks
기본 timeout 결과: Qwen 3.6-27B 38.2%
글의 해석: late-2025 frontier와 비슷한 품질대
추가 맥락: 3-hour timeout에서는 59.3%까지 상승

커뮤니티가 바로 하드웨어 질문으로 들어간 것도 의미가 있다. 첫 반응 중 하나가 "전부 RTX 5090에서 테스트한 거냐"였는데, 이건 홍보 문구보다 배치 조건을 먼저 묻는 태도다. LocalLLaMA는 이 결과를 "로컬이 frontier를 이겼다"고 읽지 않았다. 대신 개인정보, 규제, 에어갭, 오프라인 랩 환경에서 이제는 진지하게 검토할 수준이 왔다고 읽었다. 그 온도 차가 이 글의 핵심이다.

Source links: Reddit thread, linked benchmark write-up.

로컬 코딩 모델 38.2%, LocalLLaMA가 본 건 점수보다 배치 가능성

Related Articles

Qwen3.6-35B보다 더 크게 번진 것, LocalLLaMA가 본 scaffold 문제

Qwen3.6-27B, 397B급 이전 모델 넘고 Apache 2.0으로 공개…코딩 특화 27B dense

Qwen3.6-Max-Preview, coding benchmark 상위권에도 cloud-only

Comments (0)

Leave a Comment

Related Articles

Qwen3.6-35B보다 더 크게 번진 것, LocalLLaMA가 본 scaffold 문제
LocalLLaMA를 흔든 건 단순한 Qwen 점수 상승이 아니었다. 같은 계열 로컬 모델이 scaffold 변경만으로 19%에서 45%, 다시 78.7%까지 올라갔다는 서사가 붙으면서, 벤치마크 비교 자체를 다시 봐야 한다는 분위기가 퍼졌다.

Qwen3.6-27B, 397B급 이전 모델 넘고 Apache 2.0으로 공개…코딩 특화 27B dense

Qwen3.6-Max-Preview, coding benchmark 상위권에도 cloud-only
LLM Apr 22, 2026 1 min read