Qwen3.5-122B-A10B Hugging Face 공개, LocalLLaMA는 양자화·처리량 논의 집중
Original: Qwen/Qwen3.5-122B-A10B · Hugging Face View original →
무슨 이슈였나
r/LocalLLaMA의 "Qwen/Qwen3.5-122B-A10B · Hugging Face" 게시글은 모델 출시 사실 자체를 빠르게 공유한 링크형 포스트다. 본문은 짧지만, 댓글에서 실제 운영 관점의 질문이 빠르게 붙으면서 고득점 토론으로 확장됐다.
Hugging Face 모델 카드에 따르면 Qwen3.5-122B-A10B는 MoE 계열로 총 122B 파라미터 중 10B가 활성화되는 구조를 표기한다. 라이선스는 Apache-2.0이며, 기본 context length는 262,144 토큰, 설정 변경을 통해 더 긴 컨텍스트(문서상 최대 1,010,000 토큰) 확장 시나리오도 안내된다.
배포·운영 관점에서 나온 포인트
- 런타임: SGLang/vLLM 중심의 OpenAI-compatible 서빙 예시 제공
- 도구 연동: tool-call parser 옵션과 에이전트 활용 문서 포함
- 추론 모드: thinking mode 기본 활성화, non-thinking 모드 설정 가이드 존재
- 라이선스/공개성: Apache-2.0 기반 공개 배포
커뮤니티 댓글은 성능 수치보다 "실제로 어떤 quant가 언제 안정화되나"에 집중했다. "GGUF 가중치 대기" 의견, GPT-OSS-120B와의 비교 경험, RTX 6000/ROCm 환경에서의 throughput 공유가 이어졌고, 하드웨어별 편차를 감안한 현실적인 기대치 조정이 중요하다는 분위기가 형성됐다.
실무 시사점
이번 스레드는 모델 스펙 발표가 곧바로 운영 논의로 이어지는 흐름을 보여준다. 즉 관심 포인트가 "벤치 점수"에서 "서빙 비용·지연시간·툴 연동 난이도"로 이동하고 있다는 의미다. 특히 122B급 모델에서는 양자화 전략과 프레임워크 선택이 체감 품질과 비용을 동시에 좌우한다.
따라서 도입팀은 모델 카드의 최대 성능 수치보다, 자신들의 context 길이, tool 호출 패턴, GPU 구성에서의 재현 실험을 먼저 설계하는 편이 안전하다. LocalLLaMA 토론은 이러한 검증 포인트를 빠르게 수집할 수 있는 실전 신호로 기능하고 있다.
원문 링크: r/LocalLLaMA discussion
모델 카드: Hugging Face - Qwen3.5-122B-A10B
Related Articles
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
NVIDIA의 Nemotron 3 Super는 120B total / 12B active hybrid Mamba-Transformer MoE, native 1M-token context, 그리고 open weights·datasets·recipes를 함께 내세운다. LocalLLaMA discussion은 이 openness와 efficiency claim이 실제 home-lab deployment로 이어질 수 있는지에 집중했다.
고득점 r/MachineLearning 글은 David Noel Ng의 장문 blog를 가리키며, Qwen2-72B의 중간 7개 layer block을 복제하는 방식만으로 leaderboard 상단에 올랐다는 주장과 circuit-like 구조 해석을 다시 불러냈다.
Comments (0)
No comments yet. Be the first to comment!