Hacker News, transformer 내부에서 program execution을 수행한다는 Percepta 주장에 주목
Original: Executing programs inside transformers with exponentially faster inference View original →
Hacker News에서 눈에 띈 AI 링크 가운데 하나는 Percepta가 2026년 3월 11일 공개한 Can LLMs Be Computers?였다. 공개 페이지는 매우 짧지만 주장은 강하다. 팀은 transformer 내부에 computer를 만들었고, arbitrary C program을 수백만 step 동안 실행할 수 있으며, 2D attention head를 통해 inference를 지수적으로 더 빠르게 만들 수 있다고 설명한다. teaser에 가까운 공개물인데도 HN이 즉시 반응한 이유는, 호기심을 자극하는 만큼 더 강한 증거를 요구하게 만드는 주장이라서다.
이 주장이 중요한 이유는 현재 LLM system이 여전히 외부에 두고 있는 경계를 건드리기 때문이다. 오늘날 많은 agent system은 code나 tool call을 생성한 뒤, 실제 실행은 별도 runtime에 맡긴다. Percepta는 이를 다르게 framing한다. 공개 설명만 놓고 보면, execution 자체를 transformer 바깥으로 넘기는 것이 아니라 model 내부 계산 안으로 끌어들이겠다는 것이다. 이는 단순한 tool use보다 훨씬 강한 주장으로, model이 다른 software를 호출하는 planner가 아니라 계산 substrate 자체가 될 수 있다는 뜻이기 때문이다.
HN 이용자들은 이 아이디어를 곧바로 두 가지 오래된 연구 질문과 연결했다. 첫째는 interpretability다. model의 일부 동작이 더 program-like하거나 pseudo-symbolic한 형태로 표현될 수 있다면, 완전히 불투명한 end-to-end heuristic보다 분석하기 쉬울 수 있다. 둘째는 reasoning efficiency다. 몇몇 댓글은 next-token system이 지금의 tool-augmented stack보다 더 직접적으로 structured computation을 수행할 수 있다는 신호로 읽었다. reinforcement learning이나 더 강한 planning loop와 결합해볼 수 있다는 추측도 나왔다.
다만 반응은 열광만으로 끝나지 않았다. 여러 독자는 공개 글이 full explanation이라기보다 teaser에 가깝다고 했고, 구체적인 benchmark, 실제 예시, 그리고 speedup이 정확히 무엇을 뜻하는지에 대한 더 선명한 설명을 요구했다. 아이디어 자체는 흥미롭지만, 현재 공개된 자료만으로는 평가하기 어렵다는 지적도 있었다. 이런 비판은 타당하다. 연구 주장이 이 정도로 크면 novelty만큼 clarity와 measurement도 중요해지기 때문이다.
결국 이 HN 스레드는 verdict라기보다 marker에 가깝다. Percepta는 transformer가 단순한 sequence predictor가 아니라, 특정 종류의 computation을 내부에서 효율적으로 실행하는 executor가 될 수 있다는 high-upside research direction을 던졌다. 이것이 실제 architectural shift로 이어질지는 더 날카로운 문구가 아니라, 재현 가능한 task, 더 명확한 설명, 그리고 연구 커뮤니티가 직접 시험할 수 있는 benchmark가 나오느냐에 달려 있다. 원문: Percepta. 커뮤니티 토론: Hacker News.
Related Articles
Hacker News는 KV cache를 추상적 architecture 용어가 아니라 GPU memory 비용 문제로 설명한 Future Shock 글을 다시 끌어올렸다. 이 설명은 GPT-2에서 Llama 3, DeepSeek V3, Gemma 3, Mamba 계열까지 memory 설계가 어떻게 달라졌는지 한 흐름으로 보여 준다.
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
LocalLLaMA가 Hipfire에 몰린 이유는 새 repo 하나가 아니라 RDNA 사용자들이 오래 기다린 “우리 쪽 최적화”에 가까웠기 때문이다. 댓글도 곧바로 실제 카드에서 나온 속도 수치와 호환성 질문으로 채워졌다.
Comments (0)
No comments yet. Be the first to comment!