Orthrus 프레임워크가 Qwen3 모델에서 forward pass당 최대 7.8배 토큰 생성 속도를 달성했다. 단일 KV 캐시로 자동회귀와 확산 뷰를 통합하는 이중 뷰 아키텍처 덕분에 출력 분포는 원본과 동일하다.
#qwen3
RSS Feedllama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.
Lightning OPD는 reasoning model post-training에서 live teacher inference server가 계속 필요한 병목을 겨냥한다. 4월 14일 arXiv 논문은 Qwen3-8B-Base에서 AIME 2024 69.9%를 30 GPU hours에 도달했고 standard OPD 대비 4.0x speedup을 보였다고 보고했다.
54점 Reddit post는 merged PR #19441을 통해 qwen3-omni-moe와 qwen3-asr support가 llama.cpp에 들어왔다고 알렸고, 댓글은 local multimodal과 ASR 실사용 기대를 드러냈다.
StepFun는 단순 model card 수준을 넘어서 Step-3.5-Flash-SFT dataset를 Hugging Face에 공개했다. 이 repo는 raw JSON data, tokenizer snapshot, StepTronOSS용 compiled shard를 함께 제공하며, Reddit 토론은 reproducibility, reasoning trace, dual-license 구조의 의미에 집중됐다.
Qwen3의 TTS 모델이 목소리를 1024차원 벡터로 인코딩해 성별·음높이·감정을 수학적으로 조작하는 보이스 임베딩 기능을 지원합니다. 경량 독립형 모델로 추출돼 HuggingFace에 공개됐습니다.