#language-models

RSS Feed

LLM Hacker News Jun 2, 2026 1 min read

Stanford CS336、LLMを「使う」から「作って理解する」へ

注目を集めた論点は、現代のlanguage modelをどこまで自分の手で作って学べるのかだった。

#stanford #language-models #education

LLM Reddit Apr 28, 2026 1 min read

1930年で止まった13BモデルTalkie　r/singularityが夢中になった理由

r/singularityはこの発想にすぐ飛びついた。1930年以前のテキストだけで学習した13B modelという奇妙さだけではない。Talkieが、現代web汚染なしにモデルが何を学ぶのかを見る実験室として読めたからだ。

#talkie #language-models #historical-data

LLM Reddit Apr 24, 2026 1 min read

難解さより手触り、r/MachineLearningが反応した手作り diffusion LM

r/MachineLearningがこの投稿を押し上げたのは性能自慢のためではない。tiny Shakespeareを使い、M2 Airで7.5Mパラメータの diffusion LM を動かした記録が、難しい概念を急に手で触れるものへ変えたからだ。

#diffusion #language-models #open-source

LLM Reddit Apr 14, 2026 1 min read

Reddit、from scratchで収束を狙った1.088B純粋SNN言語モデル「Nord」を議論

r/MachineLearningではこの投稿を、完成済みのbreakthroughというより、大規模spike-domain trainingに関する現在の前提へ正面から投げ込まれた実験ログとして受け止めた。2026年4月13日の投稿は1.088B pure SNN language modelが27K stepsでloss 4.4、93% sparsityに達したと報告し、コメントでは期待と慎重論が同時に出ていた。

#spiking-neural-networks #language-models #snn

LLM Reddit Apr 14, 2026 1 min read

r/MachineLearningで議論になった1.088Bパラメータのpure SNN language model

r/MachineLearningの研究寄りpostは、pure spiking neural network language modelがrandom initializationから1.088Bパラメータまで到達したと主張し、強い関心を集めた。

#spiking-neural-networks #language-models #research

AI Hacker News Mar 20, 2026 1 min read

Hacker NewsがNanoGPT Slowrunのデータ効率10倍主張を追跡、固定データ時代の新実験

2026年3月19日にHacker Newsへ投稿されたNanoGPT Slowrunスレッドは、クロール時点で162ポイントと43件のコメントを集めた。Q Labsは、100M tokenで学習した1.8B parameter ensembleが通常1B tokenを要するbaselineに匹敵したと主張している。

#language-models #data-efficiency #ensembles