Reddit, 1.088B pure SNN 언어모델 Nord의 from-scratch 수렴 실험을 주목

Original: I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R] View original →

Read in other languages: English日本語
LLM Apr 14, 2026 By Insights AI (Reddit) 2 min read Source

왜 Reddit가 이 글에 반응했나

이 r/MachineLearning 글은 polished paper 발표처럼 읽히지 않는다. 오히려 “돈이 떨어져서 학습을 멈췄지만, 여기까지는 갔다”는 식의 거친 연구 로그에 가깝다. 그런데 바로 그 점 때문에 커뮤니티의 관심을 끌었다. 작성자는 자신을 18세 indie dev라고 소개하며, 기존 SNN 언어모델 문헌이 대체로 from-scratch 대규모 학습의 난점을 이야기해 온 상황에서, pure spike domain으로 1.088B parameters까지 밀어 보려 했다고 적었다. 크롤링 시점의 글은 102점, 51개 댓글을 기록했다. 댓글 반응도 흥미로웠다. 신기하다는 반응과 함께 “loss 4.4가 다른 모델과 비교 가능하게 무엇을 뜻하는가”, “텍스트 품질은 아직 GPT-2 급도 아니다” 같은 냉정한 지적이 동시에 붙었다. 즉 커뮤니티는 이 글을 확정된 breakthrough라기보다, 기존 합의에 던져진 꽤 큰 실험적 도전으로 받아들이고 있다.

작성자가 주장하는 결과

게시글과 연결된 Project Nord repo에 따르면, 이 모델은 knowledge distillation도, ANN-to-SNN conversion도, pretrained teacher도 쓰지 않았다고 한다. 대신 FineWeb-EduOpenHermes 기반 데이터로, surrogate-gradient backpropagation을 써 pure SNN language model을 직접 학습했다는 설명이다. 핵심 수치는 1.088B parameters, 93% sparsity, 27K steps에서 loss 4.4다. README는 7% 정도의 neuron만 token당 활성화되며, scale을 키우는 과정에서 persistent memory module 사용이 크게 늘어났다고 적고, mixed-language corpus에서 러시아어 생성이 자연스럽게 튀어나온 사례도 보여 준다. 작성자는 이를 “대규모 pure SNN LM이 random initialization에서 수렴할 수 있음을 보인 사례”로 제시한다.

왜 이게 흥미로운가

흥미로운 이유는 SNN language modeling 쪽의 기존 상식이 보통 더 보수적이기 때문이다. README도 직접 SpikeBERT, SpikingBERT, SpikeLLM 같은 prior line을 언급하며, 기존에는 distillation이나 conversion, 혹은 hybrid activation이 더 현실적 경로로 여겨졌다고 정리한다. 만약 이 self-reported 결과가 대체로 맞다면, spike domain에서의 대규모 학습이 생각보다 더 멀리 갈 수 있다는 신호가 된다. 특히 sparsity와 persistent memory의 조합을 언어모델 규모에서 실험했다는 점은, conventional transformer 바깥에서 alternative compute structure를 찾는 사람들에게 꽤 자극적이다.

어디까지를 믿어야 하나

다만 이 글을 읽을 때는 선을 분명히 그어야 한다. 작성자 스스로도 text generation이 아직 “janky”하다고 인정하고 있고, 커뮤니티도 comparable metric과 longer training이 필요하다고 본다. 아직 peer review가 끝난 논문도 아니고, benchmark leaderboard를 뒤집는 결과로 보기도 어렵다. 그럼에도 이 포스트가 고신호인 이유는, 단순한 hype 문구가 아니라 repo, checkpoint, 아키텍처 설명, 한계까지 함께 내놓았기 때문이다. Reddit가 주목한 것은 완성도 높은 product가 아니라, 순수 SNN 언어모델이 scale에서 어디까지 갈 수 있는지에 대한 아주 거친 but concrete한 실험 기록이라고 보는 편이 정확하다.

출처: Project Nord GitHub · Reddit 토론

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.