Transformers.js와 WebGPU를 이용해 Qwen 3.5 0.8B 모델을 서버 없이 브라우저에서 완전히 실행하는 데모가 공개되어 r/LocalLLaMA에서 440점을 획득했습니다. 설치나 API 키 없이도 강력한 소형 LLM을 체험할 수 있습니다.
#qwen
r/LocalLLaMA에서 Qwen 세대별 최소 모델을 비교한 결과가 681점을 획득하며 화제가 됐습니다. Qwen 3.5의 9B 모델이 이전 세대 80B 모델을 여러 벤치마크에서 능가하고, 2B 모델이 7B급 성능을 보이는 등 세대별 개선이 놀라운 수준입니다.
Alibaba의 Qwen 팀이 Qwen 3.5 소형 모델 시리즈(0.8B~9B)를 공개했습니다. WebGPU로 브라우저에서도 실행 가능하며, 이전 세대 대비 벤치마크 성능이 대폭 향상되었습니다.
커뮤니티 개발자가 2x RTX 3090(NVLink) 환경에서 vLLM과 텐서 병렬화를 활용해 Qwen3.5 27B 모델을 170k 컨텍스트에서 초당 100+ 토큰 디코딩, 최대 585t/s의 멀티 요청 처리 성능을 달성했다.
Alibaba가 Qwen3.5 소형 모델 시리즈(0.8B, 4B, 9B)를 공개했다. Qwen3.5 9B 모델은 GPT-oss 20B~120B 수준의 성능을 기록하며, 저사양 GPU 사용자들에게 큰 반향을 일으키고 있다.
DeepSeek R1 모멘트 이후 13개월 동안 로컬 AI 실행 환경이 얼마나 빠르게 발전했는지를 보여주는 놀라운 비교: $6,000짜리 서버에서 겨우 5 TPS로 실행되던 프론티어 모델이, 이제 $600 미니 PC에서 같은 속도로 훨씬 강력한 모델을 실행할 수 있다.
Alibaba의 Qwen 팀이 Qwen 3.5 Small 모델을 출시했다. r/LocalLLaMA에서 1,000점 이상을 기록한 이 발표는 고성능 소형 모델에 대한 커뮤니티의 높은 관심을 반영한다.
r/LocalLLaMA 커뮤니티에서 Qwen 3.5-35B-A3B 모델이 GPT-OSS-120B보다 뛰어난 성능을 보이면서도 크기는 1/3에 불과하다는 평가가 높은 공감을 얻고 있습니다.
r/LocalLLaMA 고득점 스레드에서 Unsloth의 Qwen3.5-35B-A3B Dynamic GGUF 업데이트가 공유되며, KLD/PPL 지표와 실제 다운스트림 검증 필요성이 함께 제기됐다.
높은 반응을 얻은 LocalLLaMA 후속 실험 글은 Qwen3.5-35B-A3B를 RTX 5080 환경에서 Q4_K_M, KV q8_0, 배치 플래그 없는 --fit 구성으로 운용할 때 가장 실용적인 결과를 제시했다.
r/LocalLLaMA에서 Qwen3.5-122B-A10B 공개 링크가 빠르게 확산되며, GGUF 배포 시점과 양자화 효율, 실사용 처리량이 주요 화두가 됐다. 모델 카드 기준으로는 122B total / 10B activated MoE 구조, Apache-2.0 라이선스, 262,144 토큰 기본 컨텍스트가 제시됐다.
r/LocalLLaMA에서 Qwen3.5-35B-A3B를 단일 RTX 3090 환경으로 테스트한 사례가 큰 반응을 얻었다. 작성자는 100 tokens/s 이상과 실전 코딩 과제 통과를 보고했지만, 댓글에서는 툴 사용 안정성·하드웨어 편차·프롬프트 구성 변수에 따라 결과가 크게 달라진다는 의견도 함께 제기됐다.