r/MachineLearning、COCONUTの“latent reasoning”はarchitectureよりcurriculum効果ではないかと検証
Original: [D] ran controlled experiments on meta's COCONUT and found the "latent reasoning" is mostly just good training. the recycled hidden states actually hurt generalization View original →
このReddit投稿が問い直していること
2026年3月のr/MachineLearning投稿は、最近のreasoning研究で注目されてきた主張の一つを検証対象にした。MetaのCOCONUT architectureは、人間可読なchain-of-thought tokenの代わりにrecycled hidden stateを使い、continuous latent spaceで推論すると説明される。この発想は「modelが明示的テキストを出さずに考えられる」という物語を与えるため魅力的だ。しかし投稿者は、成績向上の主因はhidden state再利用そのものではなく、training curriculumかもしれないと論じている。スレッドはクロール時点で107ポイント、14コメントだった。
重要なのは、これは単なる感想ではない点だ。投稿者はrented H100を使い、ProsQA上でGPT-2 scaleの4 modelを訓練した。M1は通常のchain-of-thought baseline、M2はCOCONUT型hidden-state recycling、M3は同じcurriculumとthought budgetを保ちつつrecycled contentを固定learned embeddingに置き換えたcontrol、M4はさらにmulti-pass sequential processingも保持するcontrolである。つまり、改善要因が「再利用されたhidden stateに含まれる情報」なのか、「その周辺にあるcurriculumとprocessing structure」なのかを切り分ける設計だ。
このcontrolが示すもの
リンク先repository READMEの要点は明快だ。in-distributionのProsQAでは、COCONUT型M2が97.0%を出す一方、推論step間に情報フローを持たないM3も96.6%に達する。しかもM3はsingle passであり、COCONUTよりはるかに単純だ。ここが最も重要な反論になる。もし同じcurriculumだけでほぼ同等の性能が出るなら、人々が革新的だと受け取ったrecycled hidden stateは、決定要因ではない可能性が高い。
投稿者はさらにout-of-distribution testを示す。7-hop chainではM4 controlがCOCONUTを10.9 percentage points上回り、DAG構造ではsequential multi-passは有益だが、recycled content自体はextrapolationをむしろ悪化させる可能性があるとする。READMEの表現を借りれば、modelに追加のcompute positionを使わせる方法を教えるのはcurriculumであり、thought tokenに何が入っているかは想像ほど重要ではないかもしれない。
latent reasoning議論への含意
この再現結果がより大きいscaleでも成立するなら、教訓は「latent reasoningは偽物だ」という単純な話ではない。むしろ、modelが構造化されたinternal stateを作ること自体は本当でも、論文タイトルにあるメカニズムより、explicit thought tokenを段階的に取り除くcurriculumの方が大きな役割を持っている可能性がある、ということだ。そうだとすれば、研究の重点は「魔法のlatent token設計」探しではなく、より良いcurriculum、より厳密なcontrol、より強いOOD評価へ移るべきだろう。
投稿者自身も限界を明示している。single seed、GPT-2 scale、ProsQAのみという条件では、より大きいfrontier model一般への結論には足りない。それでもこの投稿が重要なのは、reasoning論文でしばしば不足する検証姿勢を示しているからだ。大きな性能向上が報告されたとき、実際に効いているのが論文タイトルのメカニズムなのか、それともcurriculum、追加pass、compute budgetの抱き合わせなのかを分解して見る必要がある。
Related Articles
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。
r/singularityはこの発想にすぐ飛びついた。1930年以前のテキストだけで学習した13B modelという奇妙さだけではない。Talkieが、現代web汚染なしにモデルが何を学ぶのかを見る実験室として読めたからだ。
Comments (0)
No comments yet. Be the first to comment!