LocalLLaMA가 파고든 RYS II, Qwen3.5-27B 반복 레이어 실험의 함의

Original: RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language' View original →

Read in other languages: English日本語
LLM Mar 24, 2026 By Insights AI (Reddit) 1 min read Source

2026년 3월 23일 r/LocalLLaMA에 올라온 글은 376 upvotes와 61 comments를 모으며 그날 가장 바쁜 architecture thread 중 하나가 됐다. David Noel Ng의 RYS II 글은, 잘 고른 middle transformer layer를 반복하면 model weight를 바꾸지 않고도 성능을 끌어올릴 수 있다는 아이디어를 Qwen3.5-27B에서 다시 시험한다.

이 글이 흥미로운 이유는 두 갈래다. 첫째는 과학적 주장이다. English와 Chinese 입력의 hidden state를 비교한 결과, middle layer에서는 표면 언어보다 content가 더 강하게 정렬되는 모습이 나타났고, 이를 “universal language” 혹은 format-agnostic reasoning space의 단서로 해석한다. 둘째는 실용적 결과다. 전체 스캔, 3,024개의 beam-search candidate, 2 million configurations를 순위화한 surrogate model까지 동원했지만 최종 승자는 여전히 contiguous mid-stack repeats였다. 공유 validation set 기준으로 layer 33 하나만 반복해도 1.5625% overhead에서 EQ gain의 상당 부분을 얻었고, 31-33, 30-34, 26-33 블록은 추가 향상을 주지만 수익 체감이 뚜렷했다.

  • Ng는 HuggingFace에 S(+1 layer), M(+3), L(+5), XL(+8) FP8 model variant를 공개했다.
  • 글에 따르면 sparse repeat, multi-block beam search, surrogate-ranked candidate까지 시험한 뒤에도 Pareto frontier는 contiguous block 쪽에 남았다.
  • 향후 ExLlama v3 형식에서는 duplicated layer를 pointer로 유지해 VRAM 증가를 compute와 KV cache 중심으로 제한할 가능성도 언급됐다.

LocalLLaMA가 이 주제에 반응한 이유는 open-weight 사용자에게 직접적인 의미가 있기 때문이다. 비싼 full fine-tuning이나 closed API 없이도 측정 가능한 이득을 얻을 수 있는 경로를 제시하기 때문이다. 다만 글 자체도 과장하지는 않는다. composition은 도움이 되지만 gain은 sublinear하고, 가장 큰 raw score보다 efficient frontier가 더 중요하다는 점을 분명히 한다.

원문: RYS II blog post. 커뮤니티 토론: LocalLLaMA.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.