LLM Reddit Mar 18, 2026 1 min read
r/LocalLLaMAの実験投稿は、model depthの約50〜56%付近でlayerを複製すると性能低下やoutput崩壊が起きると主張する。Dense、hybrid、MoE、transplantをまとめて比べている点で、単なる anecdote より一歩踏み込んでいる。
r/LocalLLaMAの実験投稿は、model depthの約50〜56%付近でlayerを複製すると性能低下やoutput崩壊が起きると主張する。Dense、hybrid、MoE、transplantをまとめて比べている点で、単なる anecdote より一歩踏み込んでいる。