노화 중

로컬 코딩 모델 38.2%, LocalLLaMA가 본 건 점수보다 배치 가능성

Original: Local model on coding has reached a certain threshold to be feasible for real work View original →

Read in other languages: English日本語
LLM Apr 28, 2026 By Insights AI (Reddit) 1 min read 1 views Source

LocalLLaMA가 이 글에 반응한 이유는 38.2%라는 숫자 자체보다 그 숫자가 놓인 좌표에 있다. 게시자는 open-weight 27B-32B 모델들을 Terminal-Bench 2.0 89개 작업에 돌렸고, 기본 per-task timeout 조건에서 Qwen 3.6-27B가 34/89, 즉 38.2%를 기록했다고 정리했다. 포인트는 "최고 성능"가 아니라 "이제 어디에 써먹을 수 있나"다.

연결 고리는 late-2025 frontier와의 시간 비교다. 글은 이 수치를 verified leaderboard의 과거 구간에 겹쳐 읽는다. Terminus 2 + Claude Opus 4.1이 38.0%, GPT-5.1-Codex가 36.9%, Claude Code + Sonnet 4.5가 40.1%, Codex CLI + GPT-5-Codex가 44.3%였다. 즉 오늘의 오프라인 최고점이 대략 6~8개월 전 hosted frontier와 비슷한 띠에 들어왔다는 주장이다. 절대 성능으로는 아직 80% 안팎의 최신 hosted agent와 거리가 있지만, 로컬 모델이 "실전 배치 가능한 이전 세대" 수준에는 도달했다는 메시지가 훨씬 크게 들린다.

스레드 바깥의 링크드 블로그는 이 해석을 더 밀어붙인다. 같은 Qwen 3.6-27B도 기본 timeout에서는 38.2%지만, Qwen 측 3시간 timeout 설정에서는 59.3%까지 간다. 즉 실패 중 상당수는 정답을 못 찾는 문제보다 시간 초과 문제라는 뜻이다. 또 64 GB RAM + RTX 3060 12 GB 같은 평범한 데스크톱에서는 MoE 모델이 dense 모델보다 체감이 낫고, RTX 5090 32 GB에서는 dense 27B도 대화형 속도로 올라온다고 적었다.

  • 벤치마크: Terminal-Bench 2.0, 89 tasks
  • 기본 timeout 결과: Qwen 3.6-27B 38.2%
  • 글의 해석: late-2025 frontier와 비슷한 품질대
  • 추가 맥락: 3-hour timeout에서는 59.3%까지 상승

커뮤니티가 바로 하드웨어 질문으로 들어간 것도 의미가 있다. 첫 반응 중 하나가 "전부 RTX 5090에서 테스트한 거냐"였는데, 이건 홍보 문구보다 배치 조건을 먼저 묻는 태도다. LocalLLaMA는 이 결과를 "로컬이 frontier를 이겼다"고 읽지 않았다. 대신 개인정보, 규제, 에어갭, 오프라인 랩 환경에서 이제는 진지하게 검토할 수준이 왔다고 읽었다. 그 온도 차가 이 글의 핵심이다.

Source links: Reddit thread, linked benchmark write-up.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.