r/MachineLearning, COCONUT의 “latent reasoning”이 architecture보다 curriculum 효과인지 문제 제기

이 Reddit 글이 문제 삼는 것

2026년 3월 r/MachineLearning에 올라온 한 글은 최근 reasoning 연구에서 특히 흥미롭게 소비되던 주장 하나를 정면으로 겨눴다. Meta의 COCONUT 아키텍처는 사람이 읽는 chain-of-thought token 대신 recycled hidden state를 써서 continuous latent space에서 추론한다고 설명된다. 이 아이디어는 “모델이 명시적 텍스트 없이도 생각할 수 있다”는 서사를 제공하기 때문에 크게 주목받았다. 그러나 이 Reddit 작성자는 실제 성능 향상의 핵심이 hidden state 재활용 메커니즘이 아니라 curriculum 설계일 수 있다고 주장한다. 스레드는 크롤링 시점 기준 107점과 14개 댓글을 기록했다.

흥미로운 점은 이것이 단순한 인상비평이 아니라는 것이다. 작성자는 rented H100을 이용해 ProsQA에서 GPT-2 scale 모델 4개를 학습했다. M1은 일반 chain-of-thought baseline, M2는 COCONUT 방식의 hidden-state recycling, M3는 같은 curriculum과 thought budget을 유지하되 recycled content 대신 고정 learned embedding을 쓰는 control, M4는 거기에 multi-pass sequential processing까지 유지하는 control이다. 즉, COCONUT의 향상이 “재활용된 hidden state의 정보” 때문인지, 아니면 그 주변의 curriculum과 processing structure 때문인지 분리해서 보려는 설계다.

왜 이 control이 중요한가

연결된 repository README는 핵심 결과를 꽤 분명하게 정리한다. in-distribution ProsQA에서 COCONUT 스타일 M2는 97.0% 정확도를 기록하지만, reasoning step 사이에 정보 흐름이 전혀 없는 M3도 96.6%를 기록한다. 단일 pass만 사용했는데도 거의 같은 수준이라는 점이 중요하다. 즉, 같은 curriculum만 적용해도 거의 같은 성능이 나온다면, 사람들이 COCONUT의 혁신으로 받아들인 recycled hidden state가 결정적 요인이 아닐 수 있다는 뜻이다.

작성자는 여기서 멈추지 않고 out-of-distribution 테스트도 제시했다. 7-hop chain에서는 M4 control이 COCONUT보다 10.9 percentage points 높았고, DAG 구조에서는 sequential multi-pass가 도움이 되는 반면 recycled content 자체는 extrapolation을 오히려 해칠 수 있다고 해석했다. README 표현을 빌리면, 모델이 여분의 compute position을 활용하는 법은 curriculum이 가르치고, thought token 안의 내용은 생각보다 덜 중요할 수 있다는 것이다.

latent reasoning 논쟁에 주는 의미

이 재현 실험이 더 큰 스케일에서도 유지된다면, 교훈은 “latent reasoning이 가짜다”가 아니다. 더 미묘하다. 모델이 구조화된 internal state를 형성하는 것은 사실일 수 있지만, 논문 제목에 걸린 특정 메커니즘보다 explicit thought token을 점진적으로 제거하는 curriculum이 더 큰 역할을 했을 수 있다는 것이다. 그렇다면 연구 초점은 “마법 같은 latent token”을 찾는 것보다, 더 나은 curriculum 설계, 더 정교한 control, 더 강한 OOD 평가로 이동해야 한다.

작성자도 제한점을 숨기지 않는다. single seed, GPT-2 scale, ProsQA only라는 조건은 더 큰 frontier model에 대한 일반화 결론을 내리기에 부족하다. 그럼에도 이 글이 중요한 이유는 reasoning 논문에 자주 부족한 기준을 보여주기 때문이다. 무엇이 실제로 바뀌었는지를 분리하는 factorial control이다. 실무자에게는 메시지가 단순하다. reasoning 기법이 큰 폭의 향상을 주장할 때, 논문 제목의 메커니즘이 이겼는지, 아니면 curriculum·추가 pass·compute budget이 묶여 들어간 결과인지 먼저 확인해야 한다.

Reddit thread · Control repo · Original COCONUT paper

r/MachineLearning, COCONUT의 “latent reasoning”이 architecture보다 curriculum 효과인지 문제 제기

이 Reddit 글이 문제 삼는 것

왜 이 control이 중요한가

latent reasoning 논쟁에 주는 의미

Related Articles

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도

1930년에 멈춘 13B 모델 Talkie, r/singularity가 꽂힌 이유

Comments (0)

Leave a Comment

Related Articles

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도
Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.

1930년에 멈춘 13B 모델 Talkie, r/singularity가 꽂힌 이유
r/singularity는 이 아이디어에 바로 반응했다. 1930년 이전 텍스트만 학습한 13B 모델이라는 설정이 신기해서만이 아니다. Talkie가 현대 웹 오염 없이 모델이 무엇을 배우는지 볼 수 있는 실험실처럼 읽혔기 때문이다.