로컬 코딩 모델 38.2%, LocalLLaMA가 본 건 점수보다 배치 가능성
Original: Local model on coding has reached a certain threshold to be feasible for real work View original →
LocalLLaMA가 이 글에 반응한 이유는 38.2%라는 숫자 자체보다 그 숫자가 놓인 좌표에 있다. 게시자는 open-weight 27B-32B 모델들을 Terminal-Bench 2.0 89개 작업에 돌렸고, 기본 per-task timeout 조건에서 Qwen 3.6-27B가 34/89, 즉 38.2%를 기록했다고 정리했다. 포인트는 "최고 성능"가 아니라 "이제 어디에 써먹을 수 있나"다.
연결 고리는 late-2025 frontier와의 시간 비교다. 글은 이 수치를 verified leaderboard의 과거 구간에 겹쳐 읽는다. Terminus 2 + Claude Opus 4.1이 38.0%, GPT-5.1-Codex가 36.9%, Claude Code + Sonnet 4.5가 40.1%, Codex CLI + GPT-5-Codex가 44.3%였다. 즉 오늘의 오프라인 최고점이 대략 6~8개월 전 hosted frontier와 비슷한 띠에 들어왔다는 주장이다. 절대 성능으로는 아직 80% 안팎의 최신 hosted agent와 거리가 있지만, 로컬 모델이 "실전 배치 가능한 이전 세대" 수준에는 도달했다는 메시지가 훨씬 크게 들린다.
스레드 바깥의 링크드 블로그는 이 해석을 더 밀어붙인다. 같은 Qwen 3.6-27B도 기본 timeout에서는 38.2%지만, Qwen 측 3시간 timeout 설정에서는 59.3%까지 간다. 즉 실패 중 상당수는 정답을 못 찾는 문제보다 시간 초과 문제라는 뜻이다. 또 64 GB RAM + RTX 3060 12 GB 같은 평범한 데스크톱에서는 MoE 모델이 dense 모델보다 체감이 낫고, RTX 5090 32 GB에서는 dense 27B도 대화형 속도로 올라온다고 적었다.
- 벤치마크: Terminal-Bench 2.0, 89 tasks
- 기본 timeout 결과: Qwen 3.6-27B 38.2%
- 글의 해석: late-2025 frontier와 비슷한 품질대
- 추가 맥락: 3-hour timeout에서는 59.3%까지 상승
커뮤니티가 바로 하드웨어 질문으로 들어간 것도 의미가 있다. 첫 반응 중 하나가 "전부 RTX 5090에서 테스트한 거냐"였는데, 이건 홍보 문구보다 배치 조건을 먼저 묻는 태도다. LocalLLaMA는 이 결과를 "로컬이 frontier를 이겼다"고 읽지 않았다. 대신 개인정보, 규제, 에어갭, 오프라인 랩 환경에서 이제는 진지하게 검토할 수준이 왔다고 읽었다. 그 온도 차가 이 글의 핵심이다.
Source links: Reddit thread, linked benchmark write-up.
Related Articles
LocalLLaMA를 흔든 건 단순한 Qwen 점수 상승이 아니었다. 같은 계열 로컬 모델이 scaffold 변경만으로 19%에서 45%, 다시 78.7%까지 올라갔다는 서사가 붙으면서, 벤치마크 비교 자체를 다시 봐야 한다는 분위기가 퍼졌다.
중요한 점은 open-weight 27B dense 모델이 훨씬 큰 코딩 시스템과 agent task에서 직접 비교되고 있다는 데 있다. Qwen 모델 카드는 Qwen3.6-27B의 SWE-bench Verified를 77.2, Qwen3.5-397B-A17B를 76.2로 적었고 라이선스는 Apache 2.0이다.
Alibaba의 4월 22일 Qwen3.6-Max-Preview post는 여섯 개 coding benchmark top score와 Qwen3.6-Plus 대비 개선을 내세운다. 다만 핵심 caveat도 분명하다. 이번 model은 open-weight release가 아니라 hosted proprietary preview다.
Comments (0)
No comments yet. Be the first to comment!