Hacker News が再注目した ATTN/11、PDP-11 assembly で学習した Transformer
Original: Paper Tape Is All You Need – Training a Transformer on a 1976 Minicomputer View original →
なぜ Hacker News が反応したのか
Hacker News で注目された理由は、ATTN/11 が old hardware でも Transformer を学習できるのかという問いを、懐古趣味ではなく測定可能な engineering の結果に変えたからだ。このプロジェクトは PDP-11/34A 向けの single-layer、single-head Transformer を PDP-11 assembly で書き、pretrained weights を載せるだけのデモではなく、digit reversal task を実際に学習させている。単なるレトロ企画よりも技術的な重みがある。
README が示す architecture も非常に絞られている。encoder-only 構成で d_model 16、sequence length 8、vocabulary 10、parameter は 1,216 個、データ経路は embedding、self-attention、residual connection、output projection、softmax だ。著者は feed-forward block、decoder、layer norm がないため BERT や GPT ではないと明記しているが、self-attention を実際に学習する genuine Transformer であることは変わらない。
1970 hardware 向けの最適化
本当に面白いのは見出しの下にある最適化だ。初期の Fortran IV 実装は 100 step に 25 minutes、100% accuracy まで 1,500 step が必要で、実機では約 6.5 hours training に相当したという。そこから assembly rewrite と hand-tuned per-layer learning rates によって 600 step、約 2.5 hours まで短縮され、最終的な fixed-point NN11 stack では 350 step、約 5.5 minutes まで落ちたと README は説明する。
その短縮はかなり具体的な設計判断に支えられている。extra state vectors と高価な square root や division を避けるため Adam ではなく plain SGD を使い、softmax と loss 計算には exp と log の lookup tables を用いる。さらに Q8/Q15 fixed-point math を採用することで、モデルは 64KB ではなく 32KB core memory に収まり、binary サイズも 6,179 bytes に収まった。README の console 出力例は reversal task で 10/10 accuracy で終わる。
このプロジェクトの意味
ATTN/11 が示しているのは、1970s の minicomputer が modern LLM を学習できるという話ではない。むしろ興味深いのは、Transformer stack のどの部分が本質なのかを可視化している点だ。self-attention、residuals、fixed-point arithmetic、そして小さな algorithmic task にまで絞っても学習は成立する。Hacker News がこうしたプロジェクトを好むのは、抽象を再び mechanism に引き戻し、Transformer が実際に何を必要としているのかを手触りのある形で見せてくれるからだ。
Related Articles
AnthropicはMar 11, 2026、The Anthropic Instituteを立ち上げ、frontier AIが経済、法制度、安全保障、社会へ与える影響を本格的に研究すると発表した。model builderの内部観測を、より公開された研究と対話へつなげる試みだ。
OpenAIはMarch 25, 2026に、AI abuseとsafety riskを対象にした公開Safety Bug Bountyを開始した。従来のSecurity Bug Bountyでは扱いにくかったprompt injectionやdata exfiltration、agentic misuseを別枠で受け付けるのがポイントだ。
Anthropic Economic Researchは、Claude usage dataとtask feasibilityを組み合わせた“observed exposure”指標を公表した。報告書は、実際のAI導入は理論上の可能性をまだ大きく下回る一方、高露出の職種では2034年までの成長見通しが弱くなる可能性を示している。
Comments (0)
No comments yet. Be the first to comment!