#transformer

AI Hacker News Mar 29, 2026 1 min read

Hacker News가 다시 조명한 ATTN/11, PDP-11 assembly로 학습한 Transformer

Hacker News가 주목한 ATTN/11은 PDP-11/34A에서 single-layer, single-head Transformer를 PDP-11 assembly로 학습시키는 프로젝트다. README에 따르면 fixed-point math, per-layer learning rates, 32KB memory budget 최적화로 digit reversal 학습 시간이 여러 시간 추정치에서 5.5 minutes 실행으로 줄었고, 결과는 10/10 accuracy다.

#retrocomputing #transformer #pdp-11

LLM Reddit Mar 3, 2026 1 min read

파라미터 100개 미만의 초소형 트랜스포머가 10자리 숫자 덧셈에서 100% 정확도 달성

100개 미만의 파라미터를 가진 초소형 트랜스포머 모델이 두 개의 10자리 숫자를 더하는 작업에서 100% 정확도를 달성했다는 흥미로운 연구 결과가 공개되었습니다.

#transformer #machine-learning #research

LLM Hacker News Mar 2, 2026 1 min read

인터랙티브로 배우는 MicroGPT: Karpathy의 200줄 GPT 완전 분석

growingSWE가 Andrej Karpathy의 200줄 순수 Python GPT 구현체를 인터랙티브 시각화로 풀어냈다. 토크나이저부터 softmax, 역전파, 어텐션 히트맵까지 단계별로 직접 체험할 수 있다.

#gpt #transformer #neural-network

LLM Hacker News Mar 1, 2026 1 min read

HN 화제: Karpathy의 <code>microgpt</code>, 약 200줄로 GPT 학습과 추론을 해부

Hacker News에서 점수 732, 댓글 120을 기록한 <code>Microgpt</code> 토론은 GPT의 핵심 알고리즘을 순수 Python 단일 파일로 축약한 교육용 구현에 주목했다. 데이터셋, tokenizer, autograd, Transformer, Adam, inference까지 한 흐름으로 확인할 수 있다는 점이 핵심 평가 포인트였다.

#llm-education #python #transformer

AI Feb 9, 2026 4 min read

DeepSeek mHC, 1조 파라미터 AI 모델 안정화의 돌파구

DeepSeek가 Transformer 아키텍처의 근본적 안정성 문제를 해결하는 mHC 기법을 발표했습니다. 1조 파라미터급 모델 학습의 새 장을 열 것으로 기대됩니다.

#deepseek #mhc #transformer