LLM Reddit Mar 18, 2026 2 min read
한 r/LocalLLaMA 실험 글은 model depth의 약 50~56% 부근에서 layer를 복제하면 성능이 무너지거나 output이 깨진다고 주장한다. Dense, hybrid, MoE, transplant 사례를 함께 비교했다는 점에서 단순 anecdote보다 한 단계 나아간다.
한 r/LocalLLaMA 실험 글은 model depth의 약 50~56% 부근에서 layer를 복제하면 성능이 무너지거나 output이 깨진다고 주장한다. Dense, hybrid, MoE, transplant 사례를 함께 비교했다는 점에서 단순 anecdote보다 한 단계 나아간다.