Qwen3 Coder Next: 60GB 미만 최초의 실용적인 코딩 모델
Original: Qwen3 Coder Next as first "usable" coding model < 60 GB for me View original →
소형 코딩 모델의 새로운 기준
Reddit LocalLLaMA 커뮤니티의 개발자 Chromix_는 GLM 4.5 Air, Magistral, DeepSeekCoder 등 60GB 미만의 다양한 "소형" 모델을 테스트한 끝에, Qwen3 Coder Next (Q3CN)를 최초로 진정으로 실용적인 코딩 모델로 평가했다.
Qwen3 Coder Next의 3가지 핵심 장점
1. 속도
추론 모델들은 종종 좋은 결과를 내지만, 올바른 샘플링 설정에도 불구하고 추론 루프에 빠지는 경우가 있어 장시간 실행에서 결과가 나오지 않는 문제가 있었다. 또한 광범위한 추론은 OpenCode나 Roo Code가 유도하는 여러 단계에서 상당한 시간이 소요되어 대화형 작업을 크게 늦춘다.
Q3CN은 instruct MoE 모델로, 내부 사고 루프가 없으며 토큰 생성이 비교적 빠르다. 개발자는 24GB VRAM과 64GB 시스템 RAM에서 약 180 TPS 프롬프트 처리 속도와 30 TPS 생성 속도를 달성했다.
2. 품질
다른 모델들은 때때로 하네스의 tool call을 잘못 처리했지만, Q3CN은 신뢰성 있게 작동한다. 개발자는 "마침내 커스텀 클라이언트 및 서버, 다양한 프로그래밍 언어, protobuf, 그리고 몇 가지 quirk를 가진 적당히 복잡한 코드베이스를 처리할 수 있다는 느낌을 받았다"고 평가했다.
Q3CN은 극도로 복잡한 multi-hop 질문에 좋은 답변을 제공하고 신뢰할 수 있는 full-stack 변경을 수행했다. 다만 Roo Code에서는 때때로 조금 게으르게 행동하여 올바른 결과를 얻기 위해 더 깊이 들어가라는 reminder가 필요했다.
3. 컨텍스트 크기
대규모 프로젝트에서 코딩하려면 컨텍스트가 필요하다. 표준 attention을 가진 대부분의 모델은 모든 VRAM을 소비한다. Q3CN은 100k+ 컨텍스트를 쉽게 지원한다. 몇몇 다른 모델도 이미 이를 지원했지만, 앞서 언급한 두 가지 측면에서 단점이 있었다.
실행 설정
개발자는 다음 설정으로 모델을 실행했다:
set GGML_CUDA_GRAPH_OPT=1
llama-server -m Qwen3-Coder-Next-UD-Q4_K_XL.gguf -ngl 99 -fa on -c 120000 --n-cpu-moe 29 --temp 0 --cache-ram 0
- temp 0: instruct에서 잘 작동하며, 높은 온도의 "creativity"가 필요하지 않다. 코딩 시 가끔 발생하는 잘못된 토큰 출력을 방지한다
- cache-ram 0: 캐시가 빠를 것으로 예상되었지만(30ms), 각 요청 후 3초의 쿼리/업데이트 시간을 보였기 때문에 비활성화했다
- GGML_CUDA_GRAPH_OPT: 더 높은 TPS를 얻기 위한 실험적 옵션. 일부 모델에서는 처리가 중단되지만 일반적으로 작동한다
OpenCode vs. Roo Code
두 도구 모두 문제를 해결했지만, OpenCode에서 약간 더 올바른 답변과 솔루션을 보았다. 그러나:
- Roo Code: 기본적으로 명령줄을 통한 구문 검사와 같은 무해한 것조차 모든 것에 대해 묻는다. 이는 권한 목록으로 쉽게 구성할 수 있어 자동화된 흐름이 자주 멈추지 않도록 할 수 있다
- OpenCode: 코드 모드에서 기본적으로 모든 것을 허용한다. 한 번은 문제가 발생하자 패키지를 제거하고 재설치하며 파일을 제거하여 개발 환경을 망가뜨리며 스스로 궁지에 몰렸다. "일을 끝내려는" 시도에서 너무 자율적이며, 이는 훈련 세트에 없는 최신 기술에서 잘 작동하지 않는다
의의
Qwen3 Coder Next는 로컬 LLM 기반 코딩의 새로운 이정표를 제시한다. 적당한 하드웨어 요구사항(24GB VRAM, 64GB RAM)으로 복잡한 코드베이스에서 실용적인 코딩 지원을 제공할 수 있다는 것을 보여준다.
Related Articles
AnthropicはFebruary 17, 2026にClaude Sonnet 4.6を発表し、betaの1M token context windowを追加した。API価格を$3/$15 per million tokensに据え置いたままclaude.aiとClaude Coworkの標準モデルを更新し、より多くの実務ワークロードをSonnet系へ寄せる意図を示した。
Hacker Newsで注目された「Agentic Engineering Patterns」は、コーディングエージェントを実務に組み込むための原則とQA手順を体系化したガイド。単発のプロンプト技ではなく、再現性のある開発プロセスに焦点を当てる。
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
Comments (0)
No comments yet. Be the first to comment!