#qwen3

LLM Hacker News May 16, 2026 1 min read

Orthrus-Qwen3: 동일 출력 품질 유지하며 추론 속도 7.8배 향상

Orthrus 프레임워크가 Qwen3 모델에서 forward pass당 최대 7.8배 토큰 생성 속도를 달성했다. 단일 KV 캐시로 자동회귀와 확산 뷰를 통합하는 이중 뷰 아키텍처 덕분에 출력 분포는 원본과 동일하다.

#inference #qwen3 #speculative-decoding

LLM Reddit May 4, 2026 1 min read

llama.cpp, 멀티토큰 예측(MTP) 베타 진입

llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.

#llama-cpp #mtp #local-llm

LLM Apr 16, 2026 1 min read

Lightning OPD, reasoning model post-training을 30 GPU hours로 줄였다

Lightning OPD는 reasoning model post-training에서 live teacher inference server가 계속 필요한 병목을 겨냥한다. 4월 14일 arXiv 논문은 Qwen3-8B-Base에서 AIME 2024 69.9%를 30 GPU hours에 도달했고 standard OPD 대비 4.0x speedup을 보였다고 보고했다.

#llm #distillation #post-training

LLM Reddit Apr 13, 2026 1 min read

r/LocalLLaMA, Qwen3 audio support가 들어간 llama.cpp merge에 주목

54점 Reddit post는 merged PR #19441을 통해 qwen3-omni-moe와 qwen3-asr support가 llama.cpp에 들어왔다고 알렸고, 댓글은 local multimodal과 ASR 실사용 기대를 드러냈다.

#qwen3 #llama-cpp #audio

LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMA: StepFun, Step 3.5 Flash 학습에 쓴 SFT dataset 공개

StepFun는 단순 model card 수준을 넘어서 Step-3.5-Flash-SFT dataset를 Hugging Face에 공개했다. 이 repo는 raw JSON data, tokenizer snapshot, StepTronOSS용 compiled shard를 함께 제공하며, Reddit 토론은 reproducibility, reasoning trace, dual-license 구조의 의미에 집중됐다.

#stepfun #sft #datasets

LLM Reddit Feb 23, 2026 1 min read

Qwen3 TTS의 숨겨진 기능: 수학으로 목소리를 조작하는 보이스 임베딩

Qwen3의 TTS 모델이 목소리를 1024차원 벡터로 인코딩해 성별·음높이·감정을 수학적으로 조작하는 보이스 임베딩 기능을 지원합니다. 경량 독립형 모델로 추출돼 HuggingFace에 공개됐습니다.

#qwen3 #tts #voice-embeddings