r/LocalLLaMA, Qwen3 audio support가 들어간 llama.cpp merge에 주목

Original: mtmd: qwen3 audio support (qwen3-omni and qwen3-asr) View original →

Read in other languages: English日本語
LLM Apr 13, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMA postllama.cpp PR #19441를 가리키며 Qwen3 audio model support가 master에 merge됐다는 사실을 빠르게 공유했다. 작성자는 qwen3-omni-moe가 vision plus audio input에서 동작하고 qwen3-asr도 동작한다고 요약했고, Hugging Face의 GGUF 링크까지 붙여 로컬 inference 사용자들이 바로 시험할 수 있게 했다.

이 변경이 주목받은 이유는 단순한 model load 지원 이상이기 때문이다. PR 후속 설명에는 Qwen3-ASR용 dedicated audio path, Conv2d encoder, Whisper-like transformer encoder, MLP projector가 언급된다. 즉 가장 널리 쓰이는 open local inference stack 안에서 multimodal input과 ASR workflow를 실제로 다루는 쪽으로 한 걸음 더 나아간 셈이다.

동시에 discussion은 support가 아직 engineering process라는 점도 보여준다. review comment에서는 마지막 audio chunk를 떨어뜨릴 수 있는 Whisper preprocessing bug 가능성, Qwen3-ASR의 다른 audio boundary token, 그리고 chunked 또는 windowed attention 필요성이 거론됐다. 한 contributor는 30초 chunk에 full attention을 쓰면 결과가 나빠졌고, 중국어 강의 transcription에 쓰던 private fork에서는 8초 chunk가 더 잘 맞았다고 설명했다.

  • PR은 qwen3-omni-moe와 qwen3-asr 지원을 모두 목표로 했고 최종적으로 master에 merge됐다.
  • 후속 설명에는 Conv2d encoder, Whisper-like encoder, MLP projector 같은 구체적 구현 내용이 담겼다.
  • 남은 과제는 chunking, token handling, preprocessing 품질처럼 실사용 안정성에 가까운 부분이다.

댓글 수는 많지 않았지만 분위기는 일관됐다. 사용자들은 qwen3-asr support가 finally landed한 점을 반겼고, Qwen3-Omni-30B-A3B-Thinking을 audio와 video frame 함께 테스트해보고 싶다고 말했다. 또 local multimodal release 속도가 너무 빨라 다 따라가기 어렵다는 반응도 나왔다. 의미는 분명하다. support가 llama.cpp에 들어오는 순간, 새 model 공개와 community 실험 사이의 거리가 크게 줄어든다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.