r/MachineLearning、COCONUTの“latent reasoning”はarchitectureよりcurriculum効果ではないかと検証

このReddit投稿が問い直していること

2026年3月のr/MachineLearning投稿は、最近のreasoning研究で注目されてきた主張の一つを検証対象にした。MetaのCOCONUT architectureは、人間可読なchain-of-thought tokenの代わりにrecycled hidden stateを使い、continuous latent spaceで推論すると説明される。この発想は「modelが明示的テキストを出さずに考えられる」という物語を与えるため魅力的だ。しかし投稿者は、成績向上の主因はhidden state再利用そのものではなく、training curriculumかもしれないと論じている。スレッドはクロール時点で107ポイント、14コメントだった。

重要なのは、これは単なる感想ではない点だ。投稿者はrented H100を使い、ProsQA上でGPT-2 scaleの4 modelを訓練した。M1は通常のchain-of-thought baseline、M2はCOCONUT型hidden-state recycling、M3は同じcurriculumとthought budgetを保ちつつrecycled contentを固定learned embeddingに置き換えたcontrol、M4はさらにmulti-pass sequential processingも保持するcontrolである。つまり、改善要因が「再利用されたhidden stateに含まれる情報」なのか、「その周辺にあるcurriculumとprocessing structure」なのかを切り分ける設計だ。

このcontrolが示すもの

リンク先repository READMEの要点は明快だ。in-distributionのProsQAでは、COCONUT型M2が97.0%を出す一方、推論step間に情報フローを持たないM3も96.6%に達する。しかもM3はsingle passであり、COCONUTよりはるかに単純だ。ここが最も重要な反論になる。もし同じcurriculumだけでほぼ同等の性能が出るなら、人々が革新的だと受け取ったrecycled hidden stateは、決定要因ではない可能性が高い。

投稿者はさらにout-of-distribution testを示す。7-hop chainではM4 controlがCOCONUTを10.9 percentage points上回り、DAG構造ではsequential multi-passは有益だが、recycled content自体はextrapolationをむしろ悪化させる可能性があるとする。READMEの表現を借りれば、modelに追加のcompute positionを使わせる方法を教えるのはcurriculumであり、thought tokenに何が入っているかは想像ほど重要ではないかもしれない。

latent reasoning議論への含意

この再現結果がより大きいscaleでも成立するなら、教訓は「latent reasoningは偽物だ」という単純な話ではない。むしろ、modelが構造化されたinternal stateを作ること自体は本当でも、論文タイトルにあるメカニズムより、explicit thought tokenを段階的に取り除くcurriculumの方が大きな役割を持っている可能性がある、ということだ。そうだとすれば、研究の重点は「魔法のlatent token設計」探しではなく、より良いcurriculum、より厳密なcontrol、より強いOOD評価へ移るべきだろう。

投稿者自身も限界を明示している。single seed、GPT-2 scale、ProsQAのみという条件では、より大きいfrontier model一般への結論には足りない。それでもこの投稿が重要なのは、reasoning論文でしばしば不足する検証姿勢を示しているからだ。大きな性能向上が報告されたとき、実際に効いているのが論文タイトルのメカニズムなのか、それともcurriculum、追加pass、compute budgetの抱き合わせなのかを分解して見る必要がある。

Reddit thread · Control repo · Original COCONUT paper

r/MachineLearning、COCONUTの“latent reasoning”はarchitectureよりcurriculum効果ではないかと検証

このReddit投稿が問い直していること

このcontrolが示すもの

latent reasoning議論への含意

Related Articles

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合

1930年で止まった13BモデルTalkie　r/singularityが夢中になった理由

Comments (0)

Leave a Comment

Related Articles

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。

1930年で止まった13BモデルTalkie　r/singularityが夢中になった理由
r/singularityはこの発想にすぐ飛びついた。1930年以前のテキストだけで学習した13B modelという奇妙さだけではない。Talkieが、現代web汚染なしにモデルが何を学ぶのかを見る実験室として読めたからだ。

このReddit投稿が問い直していること

このcontrolが示すもの

latent reasoning議論への含意

Related Articles

SWE-bench Verifiedはもう限界か LocalLLaMAがbenchmaxxedと呼んだ背景

Anthropic、Claudeの選挙安全性試験を公開 100%・99.8%適合

1930年で止まった13BモデルTalkie r/singularityが夢中になった理由

Comments (0)

Leave a Comment

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合

1930年で止まった13BモデルTalkie　r/singularityが夢中になった理由