Hacker News가 주목한 ATTN/11은 PDP-11/34A에서 single-layer, single-head Transformer를 PDP-11 assembly로 학습시키는 프로젝트다. README에 따르면 fixed-point math, per-layer learning rates, 32KB memory budget 최적화로 digit reversal 학습 시간이 여러 시간 추정치에서 5.5 minutes 실행으로 줄었고, 결과는 10/10 accuracy다.
#transformer
RSS FeedAI Hacker News Mar 29, 2026 1 min read
LLM Reddit Mar 3, 2026 1 min read
100개 미만의 파라미터를 가진 초소형 트랜스포머 모델이 두 개의 10자리 숫자를 더하는 작업에서 100% 정확도를 달성했다는 흥미로운 연구 결과가 공개되었습니다.
LLM Hacker News Mar 2, 2026 1 min read
growingSWE가 Andrej Karpathy의 200줄 순수 Python GPT 구현체를 인터랙티브 시각화로 풀어냈다. 토크나이저부터 softmax, 역전파, 어텐션 히트맵까지 단계별로 직접 체험할 수 있다.
LLM Hacker News Mar 1, 2026 1 min read
Hacker News에서 점수 732, 댓글 120을 기록한 <code>Microgpt</code> 토론은 GPT의 핵심 알고리즘을 순수 Python 단일 파일로 축약한 교육용 구현에 주목했다. 데이터셋, tokenizer, autograd, Transformer, Adam, inference까지 한 흐름으로 확인할 수 있다는 점이 핵심 평가 포인트였다.
AI Feb 9, 2026 4 min read
DeepSeek가 Transformer 아키텍처의 근본적 안정성 문제를 해결하는 mHC 기법을 발표했습니다. 1조 파라미터급 모델 학습의 새 장을 열 것으로 기대됩니다.