Reddit、from scratchで収束を狙った1.088B純粋SNN言語モデル「Nord」を議論
Original: I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R] View original →
なぜRedditで目を引いたのか
このr/MachineLearning投稿は、整ったpaper announcementというより、資金が尽きるまで突き進んだ実験記録に近い。その粗さ自体が関心を呼んだ。投稿者は自分を 18歳のindie developer と説明し、pure spiking neural network language modelをdistillationやANN-to-SNN conversionなしで、billion-parameter級まで直接学習できるか試したと書いている。クロール時点でスレッドは 102ポイント、51コメント。反応は一方向ではなく、コードとcheckpointまで出している点を評価する声と、比較可能なmetricやより長いtrainingが必要だという冷静な指摘が同時に並んでいた。
投稿とrepoが主張している内容
Reddit本文とリンク先の Project Nord repoによると、このモデルは 1.088B parameters の pure SNN language model で、random initialization から学習され、FineWeb-Edu と OpenHermes を使い、pretrained teacherもANN-to-SNN conversionも使っていないという。主な数字は 93% sparsity と 27K steps時点でloss 4.4。repoは、large-scaleなspike-domain language modelingは普通は収束が難しいという既存の見方に対し、Nordはそこを破ったと位置づけている。また、Genesis Memory、spike-driven routing、規模拡大に伴うpersistent memory利用の増加も主要ポイントとして挙げている。
なぜ面白いのか
この結果が面白いのは、すぐstate of the artを塗り替えたからではない。SNN researchにおける重要な争点に、かなり直接ぶつかっているからだ。repoは SpikeBERT、SpikingBERT、SpikeLLM といった先行系譜に言及し、従来はdistillationやconversion、hybrid methodに寄ることが多かったと整理する。もしNordのself-reported resultが大筋で正しいなら、pure spike domain trainingは研究者が想定しているより先まで伸びる可能性がある。しかも1 tokenあたり発火するneuronが約7%にとどまるという話は、単なるfluency競争ではなく、計算やmemory tradeoffの別の設計空間を示唆する。
なぜ慎重さも必要なのか
もちろん、慎重に読むべき理由も多い。投稿者自身が生成品質はまだ “janky” だと認めており、コメントでも loss 4.4 をどう比較すべきかがすぐ論点になった。repo-backedで情報量は多いが、これは依然として 自己申告ベースのcommunity research であり、peer-reviewed resultでもbenchmark leaderでもない。だからこの話の本当の面白さは、完成品を祝うことではない。large-scale pure SNN language modelingが本当に無理なのか、それともまだ十分に試されていないだけなのかを、かなり具体的なartifact付きで問い直している点にある。
出典: Project Nord GitHub · Reddit議論
Related Articles
r/MachineLearningの研究寄りpostは、pure spiking neural network language modelがrandom initializationから1.088Bパラメータまで到達したと主張し、強い関心を集めた。
OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。
Poolside AIが2026年4月28日、初のオープンウェイトモデルLaguna XS.2をApache 2.0ライセンスで公開。33B総/3B活性のMoEアーキテクチャでシングルGPU動作を実現し、SWE-bench Verified 68.2%を達成。
Comments (0)
No comments yet. Be the first to comment!