Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF 공개, 새 K_P quants 포함
Original: Qwen3.5-122B-A10B Uncensored (Aggressive) — GGUF Release + new K_P Quants View original →
Reddit의 r/LocalLLaMA에서 Qwen3.5-122B-A10B Uncensored (Aggressive) release를 다룬 self-post가 주목받고 있다. crawl 시점 기준 이 Reddit thread는 263 points와 94 comments를 기록했고, 게시 시각은 2026-03-22T10:42:56.000Z였다. 글은 GGUF release 자체의 특징을 설명하면서, 함께 연결된 Hugging Face page에서 배포 파일과 model card를 확인하도록 안내한다. 원문 discussion은 Reddit thread에 있다.
post author는 이번 release가 original Qwen model을 uncensored 처리한 버전이며 personality changes는 없다고 설명한다. 또한 작성자 자신의 tests 기준으로 0/465 refusals와 zero capability loss를 기록했다고 적었다. 이런 benchmark/performance claim은 post author가 직접 제시한 수치이며, third-party benchmark나 independent verification로 확인된 결과로 제시된 것은 아니다. 따라서 실제 refusal behavior나 capability 유지 여부는 다른 prompt set과 runtime 환경에서 추가 재현이 필요하다.
가장 눈에 띄는 업데이트는 new K_P quants다. 작성자 설명에 따르면 이 quant format은 ~5-15% larger file size를 감수하는 대신 1-2 quant levels better quality를 목표로 하며, 특히 Q4_K_P는 Q6_K에 더 가깝다고 한다. local LLM 사용자 입장에서는 같은 저장 공간과 VRAM 제약 안에서 quality를 얼마나 끌어올릴 수 있는지가 핵심이기 때문에, 이 부분이 thread의 관심을 모으는 이유로 보인다. 다만 Reddit post에는 폭넓은 comparative charts나 공개 benchmark tables가 포함되어 있지 않으므로, 현재 단계에서는 promising packaging claim 정도로 읽는 편이 적절하다.
호환성 메모도 실용적이다. post에 따르면 GGUF files는 llama.cpp와 LM Studio에서 사용할 수 있고, Ollama는 extra work가 필요할 수 있다. release에는 vision support를 위한 mmproj가 포함되어 있으며, quants는 imatrix-generated quants라고 소개됐다. BF16 build가 빠진 이유에 대해서는 BF16 would be ~250GB라는 설명이 붙었다. 즉, 이번 공개는 최대 정밀도보다 실제 배포와 local inference 운용성을 우선한 패키징에 가깝다.
게시물에 적힌 model specs는 다음과 같다.
- 122B total
- ~10B active
- 256 experts with 8+1 active per token
- 262K context
- multimodal text/image/video
- hybrid attention Gated DeltaNet + softmax (3:1)
- 48 layers
이 조합은 대규모 Mixture-of-Experts architecture를 local deployment 친화적인 GGUF ecosystem로 가져오려는 시도로 해석할 수 있다. 특히 multimodal text/image/video와 262K context를 함께 내세운 점은 단순 text-only chat 모델보다 넓은 활용 범위를 의식한 구성으로 읽힌다.
결국 이 story의 핵심은 upstream Qwen의 새 official announcement라기보다, community member가 만든 uncensored GGUF packaging과 quantization 옵션 실험에 있다. 관심 있는 사용자는 Reddit thread에서 discussion을 확인하고, linked Hugging Face page에서 파일 구성을 직접 검토할 수 있다. 성능과 refusal 감소에 관한 가장 강한 주장은 모두 post author의 설명에 기반하므로, production use나 광범위한 비교 판단에는 추가 사용자 보고와 재현 테스트를 함께 보는 편이 안전하다.
Related Articles
r/LocalLLaMA에서 1360 points를 얻은 이 글은 HauhauCS 계열의 uncensored 변경과 Jackrong의 reasoning distillation을 결합한 Qwen 3.5 9B GGUF 실험을 소개하며, 소형 로컬 모델 튜닝의 현재 관심사를 보여줬다.
LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.
r/LocalLLaMA 고득점 스레드에서 Unsloth의 Qwen3.5-35B-A3B Dynamic GGUF 업데이트가 공유되며, KLD/PPL 지표와 실제 다운스트림 검증 필요성이 함께 제기됐다.
Comments (0)
No comments yet. Be the first to comment!