r/MachineLearning이 토론한 1.088B 파라미터 pure SNN language model

포스트가 주장한 내용

r/MachineLearning의 연구 중심 thread는 pure spiking neural network language model이 ANN-to-SNN conversion이나 distillation 없이 random initialization에서 1.088B 파라미터까지 올라갔다고 주장하며 주목을 받았다. 글쓴이는 자신을 18세 independent developer라고 소개했고, training budget가 바닥나 27k step에서 중단해야 했지만 loss는 4.4까지 수렴했다고 설명했다. 물론 이것이 state-of-the-art language quality를 뜻하는 것은 아니지만, 직접적인 대규모 SNN training이 매우 어렵더라도 완전히 불가능한 것은 아닐 수 있다는 점에서 의미가 있다.

포스트는 세 가지 관찰을 핵심으로 제시했다. 첫째, 모델은 약 93% sparsity를 유지했고 token당 발화하는 neuron은 대략 7% 수준이었다고 한다. 둘째, dataset mix에서 특정하게 가중하지 않았는데도 step 25k 부근에서 구조적으로 맞는 Russian text가 나오기 시작했다고 주장한다. 셋째, architecture가 600M을 넘어서 1B 구간으로 커지자 activation routing의 약 39%가 persistent memory module로 이동했는데, 글쓴이는 이를 scale이 커질수록 model이 memory의 가치를 스스로 더 크게 본 신호로 해석했다.

연구자들이 흥미를 느낀 이유

이 동역학이 더 엄격한 평가에서도 유지된다면 의미는 두 가지다. 첫째는 효율성이다. sparse firing은 SNN이 neuromorphic system이나 memory-sensitive inference에서 여전히 매력적인 이유 가운데 하나다. 둘째는 방법론이다. 기존의 대형 SNN 결과 상당수는 direct training의 불안정성 때문에 conversion이나 distillation에 기대왔다. 그런 상황에서 1.088B 파라미터를 random init으로 수렴시켰다는 주장은, run이 미완성이더라도 충분히 눈길을 끈다.

또 한 가지 흥미로운 점은 글쓴이가 한계를 비교적 솔직하게 적었다는 것이다. 생성 품질은 여전히 “janky”하고 GPT-2 fluency와는 거리가 멀다고 못 박았다. 덕분에 이 thread는 hype보다 systems research에 가까운 분위기를 유지했다.

커뮤니티가 되묻는 지점

댓글은 빠르게 흥분에서 measurement로 이동했다. 가장 강한 요구 가운데 하나는 보고된 loss를 bits-per-byte 같은 cross-model comparable metric으로 바꿔 달라는 것이었다. 다른 댓글은 이 architecture가 Loihi 같은 neuromorphic hardware에 어떻게 매핑될지, 더 작은 scale의 기존 SNN-LLM 연구와 무엇이 다른지, 그리고 sparsity의 이점이 실제 deployment cost까지 포함해도 남을지를 물었다. 결과적으로 이 thread는 한 가지를 보여준다. 비정형적인 training 결과는 관심을 받을 수 있지만, 그 다음 단계는 반드시 더 나은 baseline, 재현 가능한 checkpoint, 그리고 더 명확한 evaluation이어야 한다는 점이다.

r/MachineLearning이 토론한 1.088B 파라미터 pure SNN language model

포스트가 주장한 내용

연구자들이 흥미를 느낀 이유

커뮤니티가 되묻는 지점

Related Articles

Reddit, 1.088B pure SNN 언어모델 Nord의 from-scratch 수렴 실험을 주목

AlphaGo 창시자 데이비드 실버, '슈퍼러너' AI 스타트업으로 유럽 최대 시드 11억 달러 유치

LocalLLaMA 화제: 144M Spiking Neural Network 언어모델 학습 실험

Comments (0)

Leave a Comment

Related Articles

Reddit, 1.088B pure SNN 언어모델 Nord의 from-scratch 수렴 실험을 주목
LLM Reddit Apr 14, 2026 2 min read

AlphaGo 창시자 데이비드 실버, '슈퍼러너' AI 스타트업으로 유럽 최대 시드 11억 달러 유치
LLM May 3, 2026 1 min read

LocalLLaMA 화제: 144M Spiking Neural Network 언어모델 학습 실험
LLM Reddit Feb 27, 2026 1 min read