LocalLLaMA가 본 RYS II, Qwen3.5 27B relayering과 universal language 가설
Original: RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language' View original →
r/LocalLLaMA thread가 David Noel Ng의 LLM Neuroanatomy II에 반응한 이유는 model hacking과 representation analysis를 함께 묶었기 때문이다. 글의 핵심 주장은 modern open model에서도 transformer middle blocks를 반복하는 relayering이 여전히 도움이 된다는 것이다. 이번 대상은 Qwen3.5-27B이며, RYS, 즉 Repeat Your Self가 예전 Qwen2 계열에서만 통하던 요령이 아니라는 점을 보여주려 한다.
블로그는 이 결론에 이르기까지 3,024개의 beam search candidates, 2 million configurations를 점수화한 surrogate model, 그리고 unified validation sweep을 사용했다고 설명한다. 그 뒤 새로운 RYS variants를 공개했다. 이 점이 중요한 이유는 open-weight 커뮤니티가 layer merge나 Frankenstein model을 이미 많이 겪어왔기 때문이다. 이번 포스트에서 눈에 띈 것은 layer duplication을 운 좋은 recipe가 아니라 systematic search problem으로 다루려는 태도였다.
universal language 주장을 어떻게 볼 것인가
더 흥미로운 부분은 multilingual hidden-state 분석이다. 글은 여러 언어에서 같은 내용을 담은 문장과, 같은 언어지만 다른 내용을 담은 문장을 비교했을 때, middle layers에서는 cross-language same-content pairs가 same-language different-content pairs보다 더 가깝게 유지된다고 설명한다. 블로그 표현대로라면 format-agnostic reasoning space가 나타나며, 이것이 universal language에 대한 힌트가 될 수 있다는 것이다. 물론 이것이 LLM이 문자 그대로 하나의 언어로 사고한다는 증명은 아니다. 하지만 적어도 vague metaphor 대신 측정 가능한 representation geometry를 꺼냈다는 점에서 의미가 있다.
Reddit summary는 이를 practical release와도 연결했다. 작성자는 여러 RYS-Qwen3.5-27B-FP8 variants를 Hugging Face에 올렸고, repeated-layer variants를 fine-tune하면 해당 size class에서 더 강한 결과가 나올 수 있다고 본다. 동시에 unresolved systems issue도 남아 있다. layer를 반복하면 memory footprint가 늘어나기 쉬운데, 작성자는 KV cache를 제외하고 추가 VRAM 없이 duplicated layers를 copies로 유지할 수 있는 format도 고민 중이라고 적었다.
댓글 반응은 enthusiasm과 caution이 섞여 있었다. search의 rigor와 hidden-state analysis를 높게 본 사람도 있었고, 더 많은 언어와 다른 model families에서도 실험해 달라는 요청도 나왔다. 또 Llama 2 시절의 merge experiments를 떠올린다는 반응도 있었다. 이 thread가 중요했던 이유는 RYS II가 단순히 model feels smarter 식의 인상을 말하는 것이 아니라, architecture edits와 multilingual representation geometry, 그리고 open-weight release를 재현 가능한 한 묶음으로 제시했기 때문이다.
Related Articles
r/LocalLLaMA 게시물은 Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF와 새 K_P quants를 소개한다. 작성자는 0/465 refusals와 zero capability loss를 주장했지만, 이는 작성자 본인 테스트에 기반한 self-reported claim이다.
r/LocalLLaMA의 고신호 benchmark 글은 Qwen 3.5 27B를 mainline llama.cpp에서 ik_llama.cpp로 바꾸자 Blackwell RTX PRO 4000에서 prompt evaluation이 약 43 tok/sec에서 1,122 tok/sec로 뛰었고, generation도 7.5 tok/sec에서 26 tok/sec로 올라갔다고 전했다.
2026년 3월 20일 Hacker News에서 Attention Residuals가 논의되며, 고정 residual addition 대신 learned depth-wise attention을 쓰는 접근과 낮은 overhead의 의미가 부각됐다.
Comments (0)
No comments yet. Be the first to comment!