r/MachineLearning、COCONUTの“latent reasoning”はarchitectureよりcurriculum効果ではないかと検証
Original: [D] ran controlled experiments on meta's COCONUT and found the "latent reasoning" is mostly just good training. the recycled hidden states actually hurt generalization View original →
このReddit投稿が問い直していること
2026年3月のr/MachineLearning投稿は、最近のreasoning研究で注目されてきた主張の一つを検証対象にした。MetaのCOCONUT architectureは、人間可読なchain-of-thought tokenの代わりにrecycled hidden stateを使い、continuous latent spaceで推論すると説明される。この発想は「modelが明示的テキストを出さずに考えられる」という物語を与えるため魅力的だ。しかし投稿者は、成績向上の主因はhidden state再利用そのものではなく、training curriculumかもしれないと論じている。スレッドはクロール時点で107ポイント、14コメントだった。
重要なのは、これは単なる感想ではない点だ。投稿者はrented H100を使い、ProsQA上でGPT-2 scaleの4 modelを訓練した。M1は通常のchain-of-thought baseline、M2はCOCONUT型hidden-state recycling、M3は同じcurriculumとthought budgetを保ちつつrecycled contentを固定learned embeddingに置き換えたcontrol、M4はさらにmulti-pass sequential processingも保持するcontrolである。つまり、改善要因が「再利用されたhidden stateに含まれる情報」なのか、「その周辺にあるcurriculumとprocessing structure」なのかを切り分ける設計だ。
このcontrolが示すもの
リンク先repository READMEの要点は明快だ。in-distributionのProsQAでは、COCONUT型M2が97.0%を出す一方、推論step間に情報フローを持たないM3も96.6%に達する。しかもM3はsingle passであり、COCONUTよりはるかに単純だ。ここが最も重要な反論になる。もし同じcurriculumだけでほぼ同等の性能が出るなら、人々が革新的だと受け取ったrecycled hidden stateは、決定要因ではない可能性が高い。
投稿者はさらにout-of-distribution testを示す。7-hop chainではM4 controlがCOCONUTを10.9 percentage points上回り、DAG構造ではsequential multi-passは有益だが、recycled content自体はextrapolationをむしろ悪化させる可能性があるとする。READMEの表現を借りれば、modelに追加のcompute positionを使わせる方法を教えるのはcurriculumであり、thought tokenに何が入っているかは想像ほど重要ではないかもしれない。
latent reasoning議論への含意
この再現結果がより大きいscaleでも成立するなら、教訓は「latent reasoningは偽物だ」という単純な話ではない。むしろ、modelが構造化されたinternal stateを作ること自体は本当でも、論文タイトルにあるメカニズムより、explicit thought tokenを段階的に取り除くcurriculumの方が大きな役割を持っている可能性がある、ということだ。そうだとすれば、研究の重点は「魔法のlatent token設計」探しではなく、より良いcurriculum、より厳密なcontrol、より強いOOD評価へ移るべきだろう。
投稿者自身も限界を明示している。single seed、GPT-2 scale、ProsQAのみという条件では、より大きいfrontier model一般への結論には足りない。それでもこの投稿が重要なのは、reasoning論文でしばしば不足する検証姿勢を示しているからだ。大きな性能向上が報告されたとき、実際に効いているのが論文タイトルのメカニズムなのか、それともcurriculum、追加pass、compute budgetの抱き合わせなのかを分解して見る必要がある。
Related Articles
r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。
Hacker Newsでは2026年3月12日の分析記事をきっかけに、LLMコーディング能力はSWE-benchのtest通過率ほどにはmaintainer merge基準で伸びていないのではないかという議論が広がった。
NVIDIAは2026年3月11日、120B parameter級の open model Nemotron 3 Super を発表した。NVIDIAは、1M-token context、hybrid MoE architecture、最大5倍の throughput により、agentic AI の context explosion と thinking tax を抑えると説明している。
Comments (0)
No comments yet. Be the first to comment!