r/MachineLearning、COCONUTの“latent reasoning”はarchitectureよりcurriculum効果ではないかと検証

Original: [D] ran controlled experiments on meta's COCONUT and found the "latent reasoning" is mostly just good training. the recycled hidden states actually hurt generalization View original →

Read in other languages: 한국어English
LLM Mar 14, 2026 By Insights AI (Reddit) 1 min read Source

このReddit投稿が問い直していること

2026年3月のr/MachineLearning投稿は、最近のreasoning研究で注目されてきた主張の一つを検証対象にした。MetaのCOCONUT architectureは、人間可読なchain-of-thought tokenの代わりにrecycled hidden stateを使い、continuous latent spaceで推論すると説明される。この発想は「modelが明示的テキストを出さずに考えられる」という物語を与えるため魅力的だ。しかし投稿者は、成績向上の主因はhidden state再利用そのものではなく、training curriculumかもしれないと論じている。スレッドはクロール時点で107ポイント、14コメントだった。

重要なのは、これは単なる感想ではない点だ。投稿者はrented H100を使い、ProsQA上でGPT-2 scaleの4 modelを訓練した。M1は通常のchain-of-thought baseline、M2はCOCONUT型hidden-state recycling、M3は同じcurriculumとthought budgetを保ちつつrecycled contentを固定learned embeddingに置き換えたcontrol、M4はさらにmulti-pass sequential processingも保持するcontrolである。つまり、改善要因が「再利用されたhidden stateに含まれる情報」なのか、「その周辺にあるcurriculumとprocessing structure」なのかを切り分ける設計だ。

このcontrolが示すもの

リンク先repository READMEの要点は明快だ。in-distributionのProsQAでは、COCONUT型M2が97.0%を出す一方、推論step間に情報フローを持たないM3も96.6%に達する。しかもM3はsingle passであり、COCONUTよりはるかに単純だ。ここが最も重要な反論になる。もし同じcurriculumだけでほぼ同等の性能が出るなら、人々が革新的だと受け取ったrecycled hidden stateは、決定要因ではない可能性が高い。

投稿者はさらにout-of-distribution testを示す。7-hop chainではM4 controlがCOCONUTを10.9 percentage points上回り、DAG構造ではsequential multi-passは有益だが、recycled content自体はextrapolationをむしろ悪化させる可能性があるとする。READMEの表現を借りれば、modelに追加のcompute positionを使わせる方法を教えるのはcurriculumであり、thought tokenに何が入っているかは想像ほど重要ではないかもしれない。

latent reasoning議論への含意

この再現結果がより大きいscaleでも成立するなら、教訓は「latent reasoningは偽物だ」という単純な話ではない。むしろ、modelが構造化されたinternal stateを作ること自体は本当でも、論文タイトルにあるメカニズムより、explicit thought tokenを段階的に取り除くcurriculumの方が大きな役割を持っている可能性がある、ということだ。そうだとすれば、研究の重点は「魔法のlatent token設計」探しではなく、より良いcurriculum、より厳密なcontrol、より強いOOD評価へ移るべきだろう。

投稿者自身も限界を明示している。single seed、GPT-2 scale、ProsQAのみという条件では、より大きいfrontier model一般への結論には足りない。それでもこの投稿が重要なのは、reasoning論文でしばしば不足する検証姿勢を示しているからだ。大きな性能向上が報告されたとき、実際に効いているのが論文タイトルのメカニズムなのか、それともcurriculum、追加pass、compute budgetの抱き合わせなのかを分解して見る必要がある。

Reddit thread · Control repo · Original COCONUT paper

Share: Long

Related Articles

LLM Reddit 3d ago 1 min read

r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.