r/singularity는 이 아이디어에 바로 반응했다. 1930년 이전 텍스트만 학습한 13B 모델이라는 설정이 신기해서만이 아니다. Talkie가 현대 웹 오염 없이 모델이 무엇을 배우는지 볼 수 있는 실험실처럼 읽혔기 때문이다.
#language-models
RSS FeedLLM Reddit Apr 28, 2026 2 min read
LLM Reddit Apr 24, 2026 1 min read
r/MachineLearning이 이 글을 밀어 올린 이유는 성능 과시가 아니었다. MacBook Air M2에서 tiny Shakespeare로 7.5M 파라미터 diffusion LM을 직접 돌려 본 기록이, 어려운 개념을 갑자기 손에 잡히게 만들었다.
LLM Reddit Apr 14, 2026 2 min read
r/MachineLearning에서는 1.088B pure SNN 언어모델을 from scratch로 수렴시켰다는 개인 실험을, 완성된 product보다 기존 합의에 도전하는 로그 공개로 받아들이는 분위기였다. 2026년 4월 13일 게시글은 27K steps에서 loss 4.4, 93% sparsity를 보고했고, 댓글에서는 흥미롭다는 반응과 함께 비교 가능한 metric과 더 긴 학습이 필요하다는 지적이 함께 나왔다.
LLM Reddit Apr 14, 2026 1 min read
r/MachineLearning의 연구 지향 post는 pure spiking neural network language model이 random initialization에서 1.088B 파라미터까지 도달했다고 주장하며 관심을 모았다.
AI Hacker News Mar 20, 2026 1 min read
2026년 3월 19일 Hacker News에 올라온 NanoGPT Slowrun 글은 크롤링 시점 기준 162점과 43개 댓글을 기록했다. Q Labs는 100M token으로 학습한 1.8B parameter ensemble이 통상 1B token이 필요한 baseline과 맞먹는 성능을 냈다고 주장한다.