Hacker News が再注目した ATTN/11、PDP-11 assembly で学習した Transformer

Original: Paper Tape Is All You Need – Training a Transformer on a 1976 Minicomputer View original →

Read in other languages: 한국어English
AI Mar 29, 2026 By Insights AI (HN) 1 min read Source

なぜ Hacker News が反応したのか

Hacker News で注目された理由は、ATTN/11 が old hardware でも Transformer を学習できるのかという問いを、懐古趣味ではなく測定可能な engineering の結果に変えたからだ。このプロジェクトは PDP-11/34A 向けの single-layer、single-head Transformer を PDP-11 assembly で書き、pretrained weights を載せるだけのデモではなく、digit reversal task を実際に学習させている。単なるレトロ企画よりも技術的な重みがある。

README が示す architecture も非常に絞られている。encoder-only 構成で d_model 16、sequence length 8、vocabulary 10、parameter は 1,216 個、データ経路は embedding、self-attention、residual connection、output projection、softmax だ。著者は feed-forward block、decoder、layer norm がないため BERT や GPT ではないと明記しているが、self-attention を実際に学習する genuine Transformer であることは変わらない。

1970 hardware 向けの最適化

本当に面白いのは見出しの下にある最適化だ。初期の Fortran IV 実装は 100 step に 25 minutes、100% accuracy まで 1,500 step が必要で、実機では約 6.5 hours training に相当したという。そこから assembly rewrite と hand-tuned per-layer learning rates によって 600 step、約 2.5 hours まで短縮され、最終的な fixed-point NN11 stack では 350 step、約 5.5 minutes まで落ちたと README は説明する。

その短縮はかなり具体的な設計判断に支えられている。extra state vectors と高価な square root や division を避けるため Adam ではなく plain SGD を使い、softmax と loss 計算には explog の lookup tables を用いる。さらに Q8/Q15 fixed-point math を採用することで、モデルは 64KB ではなく 32KB core memory に収まり、binary サイズも 6,179 bytes に収まった。README の console 出力例は reversal task で 10/10 accuracy で終わる。

このプロジェクトの意味

ATTN/11 が示しているのは、1970s の minicomputer が modern LLM を学習できるという話ではない。むしろ興味深いのは、Transformer stack のどの部分が本質なのかを可視化している点だ。self-attention、residuals、fixed-point arithmetic、そして小さな algorithmic task にまで絞っても学習は成立する。Hacker News がこうしたプロジェクトを好むのは、抽象を再び mechanism に引き戻し、Transformer が実際に何を必要としているのかを手触りのある形で見せてくれるからだ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.