LocalLLaMA의 한 글은 RX 9070 XT에서 llama.cpp `--ubatch-size`를 64로 낮췄더니 Qwen3.5-27B의 prompt processing 속도가 크게 뛰었다고 보고했다. 핵심은 64가 만능값이라는 것이 아니라, prompt ingestion과 token generation이 `n_ubatch`에 전혀 다르게 반응할 수 있다는 점이다.
#qwen
RSS Feedr/LocalLLaMA에서는 `llama.cpp` pull request #19504가 병합된 뒤 Qwen3.5와 Qwen-Next에서 token generation 속도가 좋아졌다는 보고가 올라왔다. PR은 `GATED_DELTA_NET` op의 CPU/CUDA 구현을 추가한다.
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
LocalLLaMA의 인기 글은 Open WebUI의 Open Terminal을 조명한다. Docker 또는 bare metal 실행 계층을 통해 로컬 모델이 명령 실행, 파일 편집, 결과물 반환을 채팅 안에서 수행하게 한다.
Hacker News에서 높은 관심을 받은 Qwen 이슈는 모델 성능 급진전과 팀 재편 리스크가 동시에 나타난 사례다. Qwen 3.5의 빠른 라인업 확장과 핵심 연구진 이탈 보도가 겹치며 오픈 웨이트 생태계의 지속 가능성이 핵심 쟁점으로 부상했다.
LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 모델 크기별 VRAM 요구량, bf16 LoRA 권장 설정, MoE/vision 학습 주의사항을 한 문서로 정리했다.
r/LocalLLaMA 게시글은 “매 편집 후 검증” 루프만으로 Qwen3.5-35B-A3B 점수가 22.2%에서 37.8%로 상승했다고 보고하며, Claude Opus 4.6 기준 40%와의 격차 축소를 강조했다.
Transformers.js와 WebGPU를 이용해 Qwen 3.5 0.8B 모델을 서버 없이 브라우저에서 완전히 실행하는 데모가 공개되어 r/LocalLLaMA에서 440점을 획득했습니다. 설치나 API 키 없이도 강력한 소형 LLM을 체험할 수 있습니다.
r/LocalLLaMA에서 Qwen 세대별 최소 모델을 비교한 결과가 681점을 획득하며 화제가 됐습니다. Qwen 3.5의 9B 모델이 이전 세대 80B 모델을 여러 벤치마크에서 능가하고, 2B 모델이 7B급 성능을 보이는 등 세대별 개선이 놀라운 수준입니다.
Alibaba의 Qwen 팀이 Qwen 3.5 소형 모델 시리즈(0.8B~9B)를 공개했습니다. WebGPU로 브라우저에서도 실행 가능하며, 이전 세대 대비 벤치마크 성능이 대폭 향상되었습니다.
커뮤니티 개발자가 2x RTX 3090(NVLink) 환경에서 vLLM과 텐서 병렬화를 활용해 Qwen3.5 27B 모델을 170k 컨텍스트에서 초당 100+ 토큰 디코딩, 최대 585t/s의 멀티 요청 처리 성능을 달성했다.