r/MachineLearningで議論になった1.088Bパラメータのpure SNN language model

このpostが主張していたこと

r/MachineLearningの研究色が強いthreadは、pure spiking neural network language modelがANN-to-SNN conversionやdistillationに頼らず、random initializationから1.088Bパラメータまで到達したという主張で注目を集めた。投稿者は18歳のindependent developerだと名乗り、training budgetが尽きたため27k stepで停止したが、それでもlossは4.4まで収束したと述べている。もちろんこれはstate-of-the-artなlanguage qualityを意味しないが、大規模SNNのdirect trainingは非常に難しくても不可能とは限らない、という点で意味がある。

postが強調した観察は3つある。第一に、modelは約93%のsparsityを維持し、tokenごとに発火するneuronはおよそ7%だったという。第二に、dataset mixで特別に狙っていなかったにもかかわらず、step 25k前後で構造的に正しいRussian textが出始めたとされる。第三に、architectureが600Mを超えて1B帯に入ると、activation routingの約39%がpersistent memory moduleへ移動した。投稿者はこれを、scaleが大きくなるほどmodel自身がmemoryの価値を学習した結果だと解釈している。

なぜ研究者が面白がったのか

もしこの挙動がより厳密な評価でも保たれるなら、重要な理由は2つある。第一は効率だ。sparse firingは、SNNがneuromorphic systemやmemory-sensitive inferenceで今なお魅力を持つ主な理由の一つである。第二は方法論だ。従来の大規模SNN結果の多くは、direct trainingが不安定なためconversionやdistillationに依存してきた。そうした状況で、1.088Bパラメータがrandom initから収束したという主張は、runが未完でも自然に注目を集める。

さらに投稿者は限界もかなり明示していた。生成品質はまだ“janky”で、GPT-2 fluencyには遠いと述べている。この自己限定があったため、thread全体もhypeよりsystems research寄りの空気を保っていた。

コミュニティが押し返した点

コメントはすぐに興奮からmeasurementへ移った。最も強い要望の一つは、報告されたlossをbits-per-byteのようなcross-model comparable metricへ変換してほしいというものだった。ほかには、このarchitectureがLoihiのようなneuromorphic hardwareへどう載るのか、先行する小規模SNN-LLM研究との違いは何か、そしてsparsityの利点が実運用costまで含めても残るのかという問いが並んだ。このthreadが示したのは明快だ。非定型なtraining結果は注目されるが、次に必要なのは、より良いbaseline、再現可能なcheckpoint、そして一本の有望なloss curve以上に明確なevaluationである。

r/MachineLearningで議論になった1.088Bパラメータのpure SNN language model

このpostが主張していたこと

なぜ研究者が面白がったのか

コミュニティが押し返した点

Related Articles

Reddit、from scratchで収束を狙った1.088B純粋SNN言語モデル「Nord」を議論

AlphaGoの父デイビッド・シルバー、強化学習AIスタートアップIneffable Intelligenceに欧州最大11億ドルを調達

フィールズ賞数学者「GPT-5.5 Proが博士レベルの証明を生成」——数学研究に危機迫る

Comments (0)

Leave a Comment

Related Articles

Reddit、from scratchで収束を狙った1.088B純粋SNN言語モデル「Nord」を議論
LLM Reddit Apr 14, 2026 1 min read

AlphaGoの父デイビッド・シルバー、強化学習AIスタートアップIneffable Intelligenceに欧州最大11億ドルを調達
LLM May 3, 2026 1 min read

フィールズ賞数学者「GPT-5.5 Proが博士レベルの証明を生成」——数学研究に危機迫る
LLM Reddit May 10, 2026 1 min read