HNがMacMindを押し上げたのは、transformerをinspectできる大きさまで縮めたからだ。Macintosh SE/30上のHyperTalkで、1,216-parameter modelがembeddings、positional encoding、self-attention、backpropagation、gradient descentを使いFFT bit-reversalを学ぶ。
#transformers
RSS FeedVulmonの2026年4月7日のX postは、Hugging Face Transformers Trainerのcheckpoint loadingにおけるarbitrary code execution問題、CVE-2026-1839を取り上げた。CVE.orgによれば、v5.0.0rc3より前の版はPyTorch 2.6未満で細工されたrng_state.pthからcode executionが起こり得て、fixはweights_only=Trueの追加である。
Hacker NewsのShow HNで注目されたGuppyLMは、60Kのsynthetic conversationsと意図的に単純化したtransformer構成でLLM学習の全体像を見せる。Colabとブラウザの両方で試せる教育向けの超小型モデルだ。
Stanfordの公開 CS25講義は、Zoom、recordings、Discordを通じて campus外まで広がる Transformer研究の学習チャネルとして再び機能している。
Hacker Newsでは、KV cacheを抽象的なarchitecture用語ではなくGPU memoryコストとして説明するFuture Shockの記事が再び共有されている。GPT-2からLlama 3、DeepSeek V3、Gemma 3、Mamba系まで、memory設計の変化を一つの流れとして見せる内容だ。
r/MachineLearning の投稿は、dot-product attention を距離ベースの RBF-Attention に置き換えたとき、理論よりも実装の連鎖的な破綻が大きいことを具体的に示した。
David Noel Ngの続編はlayer duplicationを勘ではなくsearch problemとして扱い、multilingual hidden-state比較からmiddle layersにshared reasoning spaceがある可能性を示した。
2026年3月20日のHacker NewsではAttention Residualsが議論され、固定residual additionの代わりにlearned depth-wise attentionを使う発想と、低いoverheadでの実装可能性が注目された。
2026年3月17日にr/MachineLearningへ投稿されたClip to Grokスレッドは、クロール時点で56ポイントと20件のコメントを集めた。投稿者は、optimizer stepごとにdecoder weight rowをL2 clippingすることで、modular arithmetic benchmarkで18倍から66倍速いgeneralizationを得たと主張している。
r/LocalLLaMAの実験投稿は、model depthの約50〜56%付近でlayerを複製すると性能低下やoutput崩壊が起きると主張する。Dense、hybrid、MoE、transplantをまとめて比べている点で、単なる anecdote より一歩踏み込んでいる。
Sebastian Raschka の LLM Architecture Gallery は、最近の open model 群を比較しやすい図にまとめ、dense、MoE、hybrid design の違いを一か所で追える点が HN で評価された。
Perceptaは2026年3月11日の投稿で、transformer 内部に computer を構築し、arbitrary C program を数百万 step 実行し、2D attention head で inference を指数的に高速化できると主張した。HNの読者は刺激的な研究方向として受け止めつつも、より明確な説明、benchmark、拡張性の根拠を求めた。