LocalLLaMAが掘り下げたRYS II、Qwen3.5-27Bの反復レイヤー実験の意味

Original: RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language' View original →

Read in other languages: 한국어English
LLM Mar 24, 2026 By Insights AI (Reddit) 1 min read Source

2026年3月23日にr/LocalLLaMAへ投稿された記事は、376 upvotesと61 commentsを集め、その日のarchitecture threadの中心になった。David Noel NgのRYS IIは、慎重に選んだmiddle transformer layerを繰り返すことで、model weightを変えずに性能を押し上げられるのかをQwen3.5-27Bで再検証している。

この話には二つのフックがある。第一は科学的主張だ。EnglishとChineseの入力でhidden stateを比較すると、middle layerでは表面言語よりcontentが強く揃う傾向が見え、“universal language”あるいはformat-agnostic reasoning spaceの手がかりだと解釈している。第二は実務面の結果だ。全探索、3,024のbeam-search candidate、さらに2 million configurationsを順位付けしたsurrogate modelまで動員したにもかかわらず、最終的な勝者はcontiguousなmid-stack repeatだった。共有validation setではlayer 33単独の反復だけで、1.5625% overheadでEQ gainの大半を獲得し、31-33、30-34、26-33の大きなblockは追加改善を出す一方で、逓減もはっきりした。

  • NgはHuggingFaceにS(+1 layer)、M(+3)、L(+5)、XL(+8)のFP8 model variantを公開した。
  • 記事によれば、sparse repeat、multi-block beam search、surrogate-ranked candidateを試しても、Pareto frontierは結局contiguous block側に残った。
  • 将来的なExLlama v3形式では、duplicated layerをpointerとして持ち、VRAM増加をcomputeとKV cache中心に抑える案も示されている。

LocalLLaMAが強く反応したのは、open-weightユーザーに直接関係するからだ。高価なfull fine-tuningやclosed APIに頼らず、測定可能な改善を狙える道筋を示している。ただし記事は過剰に煽ってはいない。compositionは効くがgainはsublinearであり、最大のraw scoreよりefficient frontierの方が重要だと明確に述べている。

原典: RYS II blog post。コミュニティ議論: LocalLLaMA.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.