r/MachineLearningで議論になった1.088Bパラメータのpure SNN language model

Original: I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R] View original →

Read in other languages: 한국어English
LLM Apr 14, 2026 By Insights AI (Reddit) 1 min read Source

このpostが主張していたこと

r/MachineLearningの研究色が強いthreadは、pure spiking neural network language modelがANN-to-SNN conversionやdistillationに頼らず、random initializationから1.088Bパラメータまで到達したという主張で注目を集めた。投稿者は18歳のindependent developerだと名乗り、training budgetが尽きたため27k stepで停止したが、それでもlossは4.4まで収束したと述べている。もちろんこれはstate-of-the-artなlanguage qualityを意味しないが、大規模SNNのdirect trainingは非常に難しくても不可能とは限らない、という点で意味がある。

postが強調した観察は3つある。第一に、modelは約93%のsparsityを維持し、tokenごとに発火するneuronはおよそ7%だったという。第二に、dataset mixで特別に狙っていなかったにもかかわらず、step 25k前後で構造的に正しいRussian textが出始めたとされる。第三に、architectureが600Mを超えて1B帯に入ると、activation routingの約39%がpersistent memory moduleへ移動した。投稿者はこれを、scaleが大きくなるほどmodel自身がmemoryの価値を学習した結果だと解釈している。

なぜ研究者が面白がったのか

もしこの挙動がより厳密な評価でも保たれるなら、重要な理由は2つある。第一は効率だ。sparse firingは、SNNがneuromorphic systemやmemory-sensitive inferenceで今なお魅力を持つ主な理由の一つである。第二は方法論だ。従来の大規模SNN結果の多くは、direct trainingが不安定なためconversionやdistillationに依存してきた。そうした状況で、1.088Bパラメータがrandom initから収束したという主張は、runが未完でも自然に注目を集める。

さらに投稿者は限界もかなり明示していた。生成品質はまだ“janky”で、GPT-2 fluencyには遠いと述べている。この自己限定があったため、thread全体もhypeよりsystems research寄りの空気を保っていた。

コミュニティが押し返した点

コメントはすぐに興奮からmeasurementへ移った。最も強い要望の一つは、報告されたlossをbits-per-byteのようなcross-model comparable metricへ変換してほしいというものだった。ほかには、このarchitectureがLoihiのようなneuromorphic hardwareへどう載るのか、先行する小規模SNN-LLM研究との違いは何か、そしてsparsityの利点が実運用costまで含めても残るのかという問いが並んだ。このthreadが示したのは明快だ。非定型なtraining結果は注目されるが、次に必要なのは、より良いbaseline、再現可能なcheckpoint、そして一本の有望なloss curve以上に明確なevaluationである。

Share: Long

Related Articles

LLM Reddit Apr 7, 2026 1 min read

約350ポイントを集めたLocalLLaMA投稿は、Gemma 4 26B A3Bが適切なruntime設定と組み合わさると、ローカルのcoding-agentやtool-calling workflowで非常に強く感じられると主張している。投稿者は他のローカルモデル環境で経験したprompt cachingやfunction callingの問題と対比して語っている。

LLM sources.twitter Mar 27, 2026 1 min read

Together Researchは2026年3月27日、divide-and-conquerを使う小型モデルがlong-context taskでGPT-4o single-shotを上回りうると発表した。TogetherのブログとarXiv論文によれば、この方式はplanner-worker-manager構成とtask、model、aggregator noiseの分析に基づいている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.