Skip to content
부식 중

Qwen 3.5-35B-A3B, GPT-OSS-120B 대체하는 최고 로컬 LLM으로 부상

Original: Qwen 3.5-35B-A3B is beyond expectations. It's replaced GPT-OSS-120B as my daily driver and it's 1/3 the size. View original →

Read in other languages: English日本語
LLM Mar 1, 2026 By Insights AI (Reddit) 1 min read 14 views Source

Qwen 3.5-35B-A3B, 기대를 훨씬 뛰어넘다

LocalLLaMA 커뮤니티에서 Alibaba의 Qwen 3.5-35B-A3B 모델이 화제다. GPT-OSS-120B를 대체하는 일상 드라이버가 되었다는 평가가 500점 이상의 높은 점수를 받으며 주목받고 있다.

1/3 크기로 더 나은 성능

이 모델의 핵심 매력은 120B 급 모델의 1/3 크기에 불과하면서도 더 나은 성능을 발휘한다는 점이다. MoE(Mixture of Experts) 아키텍처를 채용하여 35B 전체 파라미터 중 활성화되는 파라미터는 3B에 불과하여 추론 비용이 매우 낮다.

실무 활용 사례

한 사용자는 다양한 실무 환경에서 이 모델을 활용하고 있다고 밝혔다:

  • N8N 서버를 통한 메시지, 이메일, 알림의 우선순위 자동 배치
  • 동적 도구 조합을 사용하는 에이전트 시스템 운영
  • 전반적인 개발 작업 보조

전반적으로 개발 관련 작업에서 특히 우수한 성능을 보인다는 평가다.

Qwen 3.5 시리즈의 위상

Qwen 3.5 시리즈는 알리바바가 오픈소스로 공개한 최신 언어 모델 패밀리로, 27B 밀집 모델과 35B MoE 변형 등 다양한 크기로 제공된다. 로컬 LLM 커뮤니티에서 OpenAI의 오픈소스 모델에 필적하는 품질을 달성했다는 평가를 받고 있다.

Share: Long

Related Articles

LLM Reddit Feb 10, 2026 2 min read

Reddit LocalLLaMA 커뮤니티에서 Qwen3-Coder-Next가 코딩뿐만 아니라 일상 대화, 문제 해결, 심층 사고 등 범용 작업에서도 Gemini 수준의 경험을 제공하는 최초의 로컬 LLM으로 평가받고 있습니다. 프라이버시를 지키면서도 상용 모델 수준의 성능을 원하는 사용자들에게 새로운 대안이 되고 있습니다.

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.