LocalLLaMA가 파고든 RYS II, Qwen3.5-27B 반복 레이어 실험의 함의

2026년 3월 23일 r/LocalLLaMA에 올라온 글은 376 upvotes와 61 comments를 모으며 그날 가장 바쁜 architecture thread 중 하나가 됐다. David Noel Ng의 RYS II 글은, 잘 고른 middle transformer layer를 반복하면 model weight를 바꾸지 않고도 성능을 끌어올릴 수 있다는 아이디어를 Qwen3.5-27B에서 다시 시험한다.

이 글이 흥미로운 이유는 두 갈래다. 첫째는 과학적 주장이다. English와 Chinese 입력의 hidden state를 비교한 결과, middle layer에서는 표면 언어보다 content가 더 강하게 정렬되는 모습이 나타났고, 이를 “universal language” 혹은 format-agnostic reasoning space의 단서로 해석한다. 둘째는 실용적 결과다. 전체 스캔, 3,024개의 beam-search candidate, 2 million configurations를 순위화한 surrogate model까지 동원했지만 최종 승자는 여전히 contiguous mid-stack repeats였다. 공유 validation set 기준으로 layer 33 하나만 반복해도 1.5625% overhead에서 EQ gain의 상당 부분을 얻었고, 31-33, 30-34, 26-33 블록은 추가 향상을 주지만 수익 체감이 뚜렷했다.

Ng는 HuggingFace에 S(+1 layer), M(+3), L(+5), XL(+8) FP8 model variant를 공개했다.
글에 따르면 sparse repeat, multi-block beam search, surrogate-ranked candidate까지 시험한 뒤에도 Pareto frontier는 contiguous block 쪽에 남았다.
향후 ExLlama v3 형식에서는 duplicated layer를 pointer로 유지해 VRAM 증가를 compute와 KV cache 중심으로 제한할 가능성도 언급됐다.

LocalLLaMA가 이 주제에 반응한 이유는 open-weight 사용자에게 직접적인 의미가 있기 때문이다. 비싼 full fine-tuning이나 closed API 없이도 측정 가능한 이득을 얻을 수 있는 경로를 제시하기 때문이다. 다만 글 자체도 과장하지는 않는다. composition은 도움이 되지만 gain은 sublinear하고, 가장 큰 raw score보다 efficient frontier가 더 중요하다는 점을 분명히 한다.

원문: RYS II blog post. 커뮤니티 토론: LocalLLaMA.

LocalLLaMA가 파고든 RYS II, Qwen3.5-27B 반복 레이어 실험의 함의

Related Articles

Qwen3.6-27B에 LocalLLaMA 들썩… 27B dense와 262K context

Qwen 3.6 27B + MTP로 로컬 추론 속도 2.5배 향상, 48GB에서 262k 컨텍스트

RTX 3090 하나로 SimpleQA 95.7%: Qwen3.6-27B + 에이전틱 검색의 위력

Comments (0)

Leave a Comment

Related Articles

Qwen3.6-27B에 LocalLLaMA 들썩… 27B dense와 262K context
LLM Reddit Apr 23, 2026 1 min read

Qwen 3.6 27B + MTP로 로컬 추론 속도 2.5배 향상, 48GB에서 262k 컨텍스트
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.

RTX 3090 하나로 SimpleQA 95.7%: Qwen3.6-27B + 에이전틱 검색의 위력
LLM Reddit May 3, 2026 1 min read