r/MachineLearning, COCONUT의 “latent reasoning”이 architecture보다 curriculum 효과인지 문제 제기
Original: [D] ran controlled experiments on meta's COCONUT and found the "latent reasoning" is mostly just good training. the recycled hidden states actually hurt generalization View original →
이 Reddit 글이 문제 삼는 것
2026년 3월 r/MachineLearning에 올라온 한 글은 최근 reasoning 연구에서 특히 흥미롭게 소비되던 주장 하나를 정면으로 겨눴다. Meta의 COCONUT 아키텍처는 사람이 읽는 chain-of-thought token 대신 recycled hidden state를 써서 continuous latent space에서 추론한다고 설명된다. 이 아이디어는 “모델이 명시적 텍스트 없이도 생각할 수 있다”는 서사를 제공하기 때문에 크게 주목받았다. 그러나 이 Reddit 작성자는 실제 성능 향상의 핵심이 hidden state 재활용 메커니즘이 아니라 curriculum 설계일 수 있다고 주장한다. 스레드는 크롤링 시점 기준 107점과 14개 댓글을 기록했다.
흥미로운 점은 이것이 단순한 인상비평이 아니라는 것이다. 작성자는 rented H100을 이용해 ProsQA에서 GPT-2 scale 모델 4개를 학습했다. M1은 일반 chain-of-thought baseline, M2는 COCONUT 방식의 hidden-state recycling, M3는 같은 curriculum과 thought budget을 유지하되 recycled content 대신 고정 learned embedding을 쓰는 control, M4는 거기에 multi-pass sequential processing까지 유지하는 control이다. 즉, COCONUT의 향상이 “재활용된 hidden state의 정보” 때문인지, 아니면 그 주변의 curriculum과 processing structure 때문인지 분리해서 보려는 설계다.
왜 이 control이 중요한가
연결된 repository README는 핵심 결과를 꽤 분명하게 정리한다. in-distribution ProsQA에서 COCONUT 스타일 M2는 97.0% 정확도를 기록하지만, reasoning step 사이에 정보 흐름이 전혀 없는 M3도 96.6%를 기록한다. 단일 pass만 사용했는데도 거의 같은 수준이라는 점이 중요하다. 즉, 같은 curriculum만 적용해도 거의 같은 성능이 나온다면, 사람들이 COCONUT의 혁신으로 받아들인 recycled hidden state가 결정적 요인이 아닐 수 있다는 뜻이다.
작성자는 여기서 멈추지 않고 out-of-distribution 테스트도 제시했다. 7-hop chain에서는 M4 control이 COCONUT보다 10.9 percentage points 높았고, DAG 구조에서는 sequential multi-pass가 도움이 되는 반면 recycled content 자체는 extrapolation을 오히려 해칠 수 있다고 해석했다. README 표현을 빌리면, 모델이 여분의 compute position을 활용하는 법은 curriculum이 가르치고, thought token 안의 내용은 생각보다 덜 중요할 수 있다는 것이다.
latent reasoning 논쟁에 주는 의미
이 재현 실험이 더 큰 스케일에서도 유지된다면, 교훈은 “latent reasoning이 가짜다”가 아니다. 더 미묘하다. 모델이 구조화된 internal state를 형성하는 것은 사실일 수 있지만, 논문 제목에 걸린 특정 메커니즘보다 explicit thought token을 점진적으로 제거하는 curriculum이 더 큰 역할을 했을 수 있다는 것이다. 그렇다면 연구 초점은 “마법 같은 latent token”을 찾는 것보다, 더 나은 curriculum 설계, 더 정교한 control, 더 강한 OOD 평가로 이동해야 한다.
작성자도 제한점을 숨기지 않는다. single seed, GPT-2 scale, ProsQA only라는 조건은 더 큰 frontier model에 대한 일반화 결론을 내리기에 부족하다. 그럼에도 이 글이 중요한 이유는 reasoning 논문에 자주 부족한 기준을 보여주기 때문이다. 무엇이 실제로 바뀌었는지를 분리하는 factorial control이다. 실무자에게는 메시지가 단순하다. reasoning 기법이 큰 폭의 향상을 주장할 때, 논문 제목의 메커니즘이 이겼는지, 아니면 curriculum·추가 pass·compute budget이 묶여 들어간 결과인지 먼저 확인해야 한다.
Related Articles
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.
r/singularity는 이 아이디어에 바로 반응했다. 1930년 이전 텍스트만 학습한 13B 모델이라는 설정이 신기해서만이 아니다. Talkie가 현대 웹 오염 없이 모델이 무엇을 배우는지 볼 수 있는 실험실처럼 읽혔기 때문이다.
Comments (0)
No comments yet. Be the first to comment!