LocalLLaMA가 본 RYS II, Qwen3.5 27B relayering과 universal language 가설
Original: RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language' View original →
r/LocalLLaMA thread가 David Noel Ng의 LLM Neuroanatomy II에 반응한 이유는 model hacking과 representation analysis를 함께 묶었기 때문이다. 글의 핵심 주장은 modern open model에서도 transformer middle blocks를 반복하는 relayering이 여전히 도움이 된다는 것이다. 이번 대상은 Qwen3.5-27B이며, RYS, 즉 Repeat Your Self가 예전 Qwen2 계열에서만 통하던 요령이 아니라는 점을 보여주려 한다.
블로그는 이 결론에 이르기까지 3,024개의 beam search candidates, 2 million configurations를 점수화한 surrogate model, 그리고 unified validation sweep을 사용했다고 설명한다. 그 뒤 새로운 RYS variants를 공개했다. 이 점이 중요한 이유는 open-weight 커뮤니티가 layer merge나 Frankenstein model을 이미 많이 겪어왔기 때문이다. 이번 포스트에서 눈에 띈 것은 layer duplication을 운 좋은 recipe가 아니라 systematic search problem으로 다루려는 태도였다.
universal language 주장을 어떻게 볼 것인가
더 흥미로운 부분은 multilingual hidden-state 분석이다. 글은 여러 언어에서 같은 내용을 담은 문장과, 같은 언어지만 다른 내용을 담은 문장을 비교했을 때, middle layers에서는 cross-language same-content pairs가 same-language different-content pairs보다 더 가깝게 유지된다고 설명한다. 블로그 표현대로라면 format-agnostic reasoning space가 나타나며, 이것이 universal language에 대한 힌트가 될 수 있다는 것이다. 물론 이것이 LLM이 문자 그대로 하나의 언어로 사고한다는 증명은 아니다. 하지만 적어도 vague metaphor 대신 측정 가능한 representation geometry를 꺼냈다는 점에서 의미가 있다.
Reddit summary는 이를 practical release와도 연결했다. 작성자는 여러 RYS-Qwen3.5-27B-FP8 variants를 Hugging Face에 올렸고, repeated-layer variants를 fine-tune하면 해당 size class에서 더 강한 결과가 나올 수 있다고 본다. 동시에 unresolved systems issue도 남아 있다. layer를 반복하면 memory footprint가 늘어나기 쉬운데, 작성자는 KV cache를 제외하고 추가 VRAM 없이 duplicated layers를 copies로 유지할 수 있는 format도 고민 중이라고 적었다.
댓글 반응은 enthusiasm과 caution이 섞여 있었다. search의 rigor와 hidden-state analysis를 높게 본 사람도 있었고, 더 많은 언어와 다른 model families에서도 실험해 달라는 요청도 나왔다. 또 Llama 2 시절의 merge experiments를 떠올린다는 반응도 있었다. 이 thread가 중요했던 이유는 RYS II가 단순히 model feels smarter 식의 인상을 말하는 것이 아니라, architecture edits와 multilingual representation geometry, 그리고 open-weight release를 재현 가능한 한 묶음으로 제시했기 때문이다.
Related Articles
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
Alibaba Qwen 팀이 에이전트 중심 설계의 신모델 Qwen3.7-Max를 공개했다. Artificial Analysis 평가에서 GPT 5.4와 동급인 5위를 기록하며 오픈 웨이트 프론티어 모델의 새 기준을 제시했다.