LocalLLaMA가 주목한 Voxtral 보이스 클로닝 복원 시도, Mistral TTS의 빈칸을 메우려는 프로젝트

오픈 weight 공개의 빈칸을 메우려는 시도

2026년 3월 voxtral-voice-clone를 다룬 r/LocalLLaMA 게시물은 크롤링 시점 기준 123 points와 25 comments를 기록했다. 이 프로젝트는 Mistral의 Voxtral-4B-TTS-2603 공개물에서 빠져 있던 매우 구체적인 조각 하나를 겨냥한다. README에 따르면 codec encoder weight가 포함되지 않아, 모델은 20개의 preset voice만 사용할 수 있고 zero-shot cloning에 필요한 ref_audio 경로는 막혀 있다.

따라서 이 저장소의 목표는 새 TTS 모델을 처음부터 만드는 것이 아니다. 빠진 encoder를 재구성하고, 공개된 모델이 그 출력 embedding을 다시 이해하도록 적응시키는 것이다. 이 점이 LocalLLaMA에서 반응을 얻은 이유다. 이제 오픈 모델 커뮤니티는 단순히 “weight가 공개됐는가”보다, 실제 핵심 기능을 재현할 만큼 공개물이 완전한가를 더 따지기 시작했다.

무엇을 학습하려는가

README는 Voxtral codec을 2.14 kbps까지 오디오를 압축하는 VQ-FSQ hybrid로 설명한다. 1개의 semantic code와 36개의 acoustic code를 사용하고, voice embedding은 프레임당 37개 codebook lookup을 합쳐 [N, 3072] 형태를 만든다. 프로젝트는 역추적한 encoder가 114개 tensor, 총 149M parameter 규모이며, ALiBi attention을 쓰는 8개 causal transformer layer로 구성된다고 적고 있다.

Phase 1은 codec encoder 자체 학습이다. 논문 recipe를 따르면서 Whisper 기반 ASR distillation, stochastic quantization, codebook diversity loss, multi-resolution STFT discriminator 같은 공학적 보완을 더한다. Phase 2는 LoRA로 language model을 미세조정해 새 encoder 출력이 voice identity 정보로 해석되도록 맞춘다. README는 80GB급 GPU와 LibriSpeech, Common Voice 규모 데이터셋을 권장하므로, 가벼운 취미성 패치라고 보긴 어렵다.

진짜 난점은 reconstruction만이 아니다

기술적으로 가장 흥미로운 부분은 failure analysis다. naive training만으로는 semantic codebook이 8192개 중 사실상 1개만 쓰이는 collapse가 발생할 수 있고, stochastic quantization이 없으면 acoustic code가 양 끝값으로 포화될 수 있다고 설명한다. 심지어 오디오 복원이 잘 돼도, inference 시점에 language model이 embedding 분포를 받아들이지 못하면 voice cloning은 실패한다. 그래서 이 프로젝트는 missing encoder를 독립 부품으로 다루지 않고, Phase 2 LoRA distillation과 embedding shape 정합을 핵심으로 둔다.

README는 또한 공개 모델이 20개 preset voice를 매우 작은 cosine similarity 차이만으로 구분한다고 적는다. 즉 voice cloning은 그럴듯한 음성 토큰을 만드는 수준이 아니라, 아주 특정한 embedding geometry를 복원해야 가능한 작업이다. 이런 시스템 수준의 세부가야말로 커뮤니티 reverse engineering이 데모 단계를 넘어설 때 드러나는 지점이다.

오픈 모델 생태계에 주는 의미

이 프로젝트의 더 큰 의미는 “형식상 오픈이지만 기능적으로는 불완전한 공개”에 대해 커뮤니티가 얼마나 복원력을 가지는지 시험한다는 데 있다. 커뮤니티 팀이 빠진 구성요소를 다시 만들어 실제 기능을 복구할 수 있다면, 부분 공개를 둘러싼 힘의 균형도 달라진다. 동시에 README는 이를 완성된 production 인프라로 포장하지 않는다. Phase 1이 유망하고 Phase 2가 뒤따른다고 적고 있어, 현재로서는 완전한 대체품보다는 야심 있는 엔지니어링 복원 작업에 가깝다.

원문: GitHub repository. 커뮤니티 토론: r/LocalLLaMA.

LocalLLaMA가 주목한 Voxtral 보이스 클로닝 복원 시도, Mistral TTS의 빈칸을 메우려는 프로젝트

오픈 weight 공개의 빈칸을 메우려는 시도

무엇을 학습하려는가

진짜 난점은 reconstruction만이 아니다

오픈 모델 생태계에 주는 의미

Related Articles

r/LocalLLaMA가 주목한 NVIDIA의 open-weight 전략, $26B 투자 보도보다 더 중요한 Nemotron 신호

LocalLLaMA가 부각한 MIT 라이선스 GigaChat 3.1 오픈 웨이트, 702B와 10B 공개

r/LocalLLaMA가 재조명한 Nemotron Cascade, 작은 activated params로도 강한 coding 성능

Comments (0)

Leave a Comment

Related Articles

r/LocalLLaMA가 주목한 NVIDIA의 open-weight 전략, $26B 투자 보도보다 더 중요한 Nemotron 신호

LocalLLaMA가 부각한 MIT 라이선스 GigaChat 3.1 오픈 웨이트, 702B와 10B 공개
LocalLLaMA는 클러스터용 702B MoE 모델과 더 가벼운 배포를 겨냥한 10B MoE 모델을 함께 내놓은 MIT 라이선스 GigaChat 3.1 공개를 부각했다.

r/LocalLLaMA가 재조명한 Nemotron Cascade, 작은 activated params로도 강한 coding 성능
LLM Reddit Mar 22, 2026 1 min read