llama.cpp에 Qwen3.5 지원 병합: 최신 모델의 로컬 실행 가능
Original: Qwen3.5 Support Merged in llama.cpp View original →
Qwen3.5 지원 추가
2026년 2월 8일에 병합된 이 풀 리퀘스트는 Alibaba의 Qwen3.5 모델 시리즈 지원을 llama.cpp에 추가했습니다. 멀티모달 기능을 제외한 Dense와 Mixture-of-Experts (MoE) 변형을 모두 지원합니다.
Qwen3.5란?
Qwen3.5는 Alibaba의 최신 언어 모델 릴리스로, Qwen3 Next 아키텍처를 기반으로 합니다. 두 가지 변형으로 제공됩니다:
- Dense 모델: 표준 transformer 아키텍처
- MoE 모델: 효율적인 계산을 위한 Mixture-of-Experts
왜 중요한가
기여자는 "Llama.cpp가 모든 제로데이 릴리스를 놓치고 있다"는 불만을 표현하며, 최첨단 모델을 신속하게 지원하려는 프로젝트의 목표를 강조했습니다. Qwen3.5 지원 추가로 사용자들은 llama.cpp의 최적화된 추론 엔진으로 이 새로운 모델을 로컬에서 실행할 수 있게 되었습니다.
주목할 만한 접근 방식
이 구현은 HuggingFace의 Transformers 구현을 참조하여 Claude Opus 4.6을 사용해 생성되었습니다. 이는 AI 지원이 모델 아키텍처 통합을 어떻게 가속화할 수 있는지 보여줍니다.
테스트 결과 두 변형 모두에서 "Excellent" 수준의 NMSE 값을 나타내며 뛰어난 변환 정확도를 보였습니다.
커뮤니티 반응
Reddit의 r/LocalLLaMA 커뮤니티에서 168점을 받으며 큰 관심을 받았습니다. 로컬 LLM 사용자들은 새로운 모델을 빠르게 지원하는 것을 높이 평가하며, 이는 오픈소스 AI 도구의 빠른 발전을 보여줍니다.
참고: PR은 처음에 Qwen3 Next에 영향을 미치는 성능 저하로 인해 되돌려졌지만, 후속 PR에서 제대로 재구현되었습니다.
Related Articles
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
r/LocalLLaMA에서는 `llama.cpp` pull request #19504가 병합된 뒤 Qwen3.5와 Qwen-Next에서 token generation 속도가 좋아졌다는 보고가 올라왔다. PR은 `GATED_DELTA_NET` op의 CPU/CUDA 구현을 추가한다.
r/LocalLLaMA의 고득점 글은 llama-swap을 이용해 로컬 LLM 다중 모델 운영을 단순화한 경험을 공유한다. 단일 실행 파일, YAML 설정, systemd 자동 시작, 모델별 파라미터 필터링이 핵심 포인트로 제시됐다.
Comments (0)
No comments yet. Be the first to comment!