Hacker News, transformer 내부에서 program execution을 수행한다는 Percepta 주장에 주목
Original: Executing programs inside transformers with exponentially faster inference View original →
Hacker News에서 눈에 띈 AI 링크 가운데 하나는 Percepta가 2026년 3월 11일 공개한 Can LLMs Be Computers?였다. 공개 페이지는 매우 짧지만 주장은 강하다. 팀은 transformer 내부에 computer를 만들었고, arbitrary C program을 수백만 step 동안 실행할 수 있으며, 2D attention head를 통해 inference를 지수적으로 더 빠르게 만들 수 있다고 설명한다. teaser에 가까운 공개물인데도 HN이 즉시 반응한 이유는, 호기심을 자극하는 만큼 더 강한 증거를 요구하게 만드는 주장이라서다.
이 주장이 중요한 이유는 현재 LLM system이 여전히 외부에 두고 있는 경계를 건드리기 때문이다. 오늘날 많은 agent system은 code나 tool call을 생성한 뒤, 실제 실행은 별도 runtime에 맡긴다. Percepta는 이를 다르게 framing한다. 공개 설명만 놓고 보면, execution 자체를 transformer 바깥으로 넘기는 것이 아니라 model 내부 계산 안으로 끌어들이겠다는 것이다. 이는 단순한 tool use보다 훨씬 강한 주장으로, model이 다른 software를 호출하는 planner가 아니라 계산 substrate 자체가 될 수 있다는 뜻이기 때문이다.
HN 이용자들은 이 아이디어를 곧바로 두 가지 오래된 연구 질문과 연결했다. 첫째는 interpretability다. model의 일부 동작이 더 program-like하거나 pseudo-symbolic한 형태로 표현될 수 있다면, 완전히 불투명한 end-to-end heuristic보다 분석하기 쉬울 수 있다. 둘째는 reasoning efficiency다. 몇몇 댓글은 next-token system이 지금의 tool-augmented stack보다 더 직접적으로 structured computation을 수행할 수 있다는 신호로 읽었다. reinforcement learning이나 더 강한 planning loop와 결합해볼 수 있다는 추측도 나왔다.
다만 반응은 열광만으로 끝나지 않았다. 여러 독자는 공개 글이 full explanation이라기보다 teaser에 가깝다고 했고, 구체적인 benchmark, 실제 예시, 그리고 speedup이 정확히 무엇을 뜻하는지에 대한 더 선명한 설명을 요구했다. 아이디어 자체는 흥미롭지만, 현재 공개된 자료만으로는 평가하기 어렵다는 지적도 있었다. 이런 비판은 타당하다. 연구 주장이 이 정도로 크면 novelty만큼 clarity와 measurement도 중요해지기 때문이다.
결국 이 HN 스레드는 verdict라기보다 marker에 가깝다. Percepta는 transformer가 단순한 sequence predictor가 아니라, 특정 종류의 computation을 내부에서 효율적으로 실행하는 executor가 될 수 있다는 high-upside research direction을 던졌다. 이것이 실제 architectural shift로 이어질지는 더 날카로운 문구가 아니라, 재현 가능한 task, 더 명확한 설명, 그리고 연구 커뮤니티가 직접 시험할 수 있는 benchmark가 나오느냐에 달려 있다. 원문: Percepta. 커뮤니티 토론: Hacker News.
Related Articles
LocalLLaMA에서 재조명된 글은 Qwen2-72B의 중간 7개 layer block을 weight 수정 없이 반복 실행해 benchmark를 끌어올렸다는 David Noel Ng의 실험을 다뤘다.
새로운 llama.cpp 변경은 <code>--reasoning-budget</code>를 template stub이 아니라 sampler 차원의 실제 제어로 바꾼다. LocalLLaMA thread는 긴 think loop를 줄이는 것과 answer quality를 지키는 것 사이의 tradeoff, 특히 local Qwen 3.5 환경에서의 의미를 집중적으로 논의했다.
r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.
Comments (0)
No comments yet. Be the first to comment!