#language-models

LLM Hacker News Jun 2, 2026 1 min read

Stanford CS336, language model을 밑바닥부터 다시 배우는 코스

530점 넘게 오른 관심은 “LLM을 쓰는 법”보다 “LLM이 어떻게 만들어지는지”를 다시 배우려는 수요에 모였다.

LLM Reddit Apr 28, 2026 2 min read

1930년에 멈춘 13B 모델 Talkie, r/singularity가 꽂힌 이유

r/singularity는 이 아이디어에 바로 반응했다. 1930년 이전 텍스트만 학습한 13B 모델이라는 설정이 신기해서만이 아니다. Talkie가 현대 웹 오염 없이 모델이 무엇을 배우는지 볼 수 있는 실험실처럼 읽혔기 때문이다.

#talkie #language-models #historical-data

LLM Reddit Apr 24, 2026 1 min read

거창한 이론보다 손에 잡혔다, r/MachineLearning이 본 diffusion LM 입문기

r/MachineLearning이 이 글을 밀어 올린 이유는 성능 과시가 아니었다. MacBook Air M2에서 tiny Shakespeare로 7.5M 파라미터 diffusion LM을 직접 돌려 본 기록이, 어려운 개념을 갑자기 손에 잡히게 만들었다.

#diffusion #language-models #open-source

LLM Reddit Apr 14, 2026 2 min read

Reddit, 1.088B pure SNN 언어모델 Nord의 from-scratch 수렴 실험을 주목

r/MachineLearning에서는 1.088B pure SNN 언어모델을 from scratch로 수렴시켰다는 개인 실험을, 완성된 product보다 기존 합의에 도전하는 로그 공개로 받아들이는 분위기였다. 2026년 4월 13일 게시글은 27K steps에서 loss 4.4, 93% sparsity를 보고했고, 댓글에서는 흥미롭다는 반응과 함께 비교 가능한 metric과 더 긴 학습이 필요하다는 지적이 함께 나왔다.

#spiking-neural-networks #language-models #snn

LLM Reddit Apr 14, 2026 1 min read

r/MachineLearning이 토론한 1.088B 파라미터 pure SNN language model

r/MachineLearning의 연구 지향 post는 pure spiking neural network language model이 random initialization에서 1.088B 파라미터까지 도달했다고 주장하며 관심을 모았다.

#spiking-neural-networks #language-models #research

AI Hacker News Mar 20, 2026 1 min read

Hacker News, NanoGPT Slowrun의 데이터 효율 10배 주장 주시... 고정 데이터 시대의 새 실험

2026년 3월 19일 Hacker News에 올라온 NanoGPT Slowrun 글은 크롤링 시점 기준 162점과 43개 댓글을 기록했다. Q Labs는 100M token으로 학습한 1.8B parameter ensemble이 통상 1B token이 필요한 baseline과 맞먹는 성능을 냈다고 주장한다.

#language-models #data-efficiency #ensembles