#transformers

LLM Hacker News Apr 18, 2026 1 min read

MacMindはHyperCardの中でtransformerを見える大きさにした

HNがMacMindを押し上げたのは、transformerをinspectできる大きさまで縮めたからだ。Macintosh SE/30上のHyperTalkで、1,216-parameter modelがembeddings、positional encoding、self-attention、backpropagation、gradient descentを使いFFT bit-reversalを学ぶ。

#transformers #hypercard #retro-computing

LLM X/Twitter Apr 14, 2026 1 min read

CVE-2026-1839、Hugging Face Transformers Trainerのunsafeなcheckpoint loading経路を指摘

Vulmonの2026年4月7日のX postは、Hugging Face Transformers Trainerのcheckpoint loadingにおけるarbitrary code execution問題、CVE-2026-1839を取り上げた。CVE.orgによれば、v5.0.0rc3より前の版はPyTorch 2.6未満で細工されたrng_state.pthからcode executionが起こり得て、fixはweights_only=Trueの追加である。

#huggingface #transformers #security

LLM Hacker News Apr 7, 2026 1 min read

GuppyLM、LLM学習を読み解ける8.7MパラメータのShow HNプロジェクト

Hacker NewsのShow HNで注目されたGuppyLMは、60Kのsynthetic conversationsと意図的に単純化したtransformer構成でLLM学習の全体像を見せる。Colabとブラウザの両方で試せる教育向けの超小型モデルだ。

#llm #education #pytorch

LLM Reddit Apr 3, 2026 1 min read

Redditが注目した Stanfordの公開 CS25 Transformers 講義、Spring 2026が始動

Stanfordの公開 CS25講義は、Zoom、recordings、Discordを通じて campus外まで広がる Transformer研究の学習チャネルとして再び機能している。

#transformers #stanford #education

LLM Hacker News Apr 2, 2026 1 min read

Hacker Newsが再確認したlong-context LLMのKV cacheコスト

Hacker Newsでは、KV cacheを抽象的なarchitecture用語ではなくGPU memoryコストとして説明するFuture Shockの記事が再び共有されている。GPT-2からLlama 3、DeepSeek V3、Gemma 3、Mamba系まで、memory設計の変化を一つの流れとして見せる内容だ。

#kv-cache #inference #transformers

LLM Reddit Apr 1, 2026 1 min read

RBF-Attentionを試した実験が示す、attentionを入れ替える難しさ

r/MachineLearning の投稿は、dot-product attention を距離ベースの RBF-Attention に置き換えたとき、理論よりも実装の連鎖的な破綻が大きいことを具体的に示した。

#transformers #attention #rbf

LLM Reddit Mar 27, 2026 1 min read

LocalLLaMAが見たRYS II、Qwen3.5 27B relayeringとuniversal language仮説

David Noel Ngの続編はlayer duplicationを勘ではなくsearch problemとして扱い、multilingual hidden-state比較からmiddle layersにshared reasoning spaceがある可能性を示した。

#qwen #transformers #relayering

LLM Hacker News Mar 21, 2026 1 min read

Hacker Newsが追う、Transformer depth改善を狙うMoonshot AIの Attention Residuals

2026年3月20日のHacker NewsではAttention Residualsが議論され、固定residual additionの代わりにlearned depth-wise attentionを使う発想と、低いoverheadでの実装可能性が注目された。

#llm #transformers #research

AI Reddit Mar 20, 2026 1 min read

r/MachineLearningがClip to Grokを注視、単純なweight norm clippingでgrokking遅延短縮を主張

2026年3月17日にr/MachineLearningへ投稿されたClip to Grokスレッドは、クロール時点で56ポイントと20件のコメントを集めた。投稿者は、optimizer stepごとにdecoder weight rowをL2 clippingすることで、modular arithmetic benchmarkで18倍から66倍速いgeneralizationを得たと主張している。

#grokking #optimization #transformers

LLM Reddit Mar 18, 2026 1 min read

r/LocalLLaMAが追ったtransformerの“danger zone”、layer duplicationが効く場所と壊れる場所

r/LocalLLaMAの実験投稿は、model depthの約50〜56%付近でlayerを複製すると性能低下やoutput崩壊が起きると主張する。Dense、hybrid、MoE、transplantをまとめて比べている点で、単なる anecdote より一歩踏み込んでいる。

#transformers #model-surgery #localllama

LLM Hacker News Mar 16, 2026 1 min read

Hacker Newsが注目した最新LLM architectureの可視化リファレンス

Sebastian Raschka の LLM Architecture Gallery は、最近の open model 群を比較しやすい図にまとめ、dense、MoE、hybrid design の違いを一か所で追える点が HN で評価された。

#llm-architectures #transformers #moe

LLM Hacker News Mar 13, 2026 1 min read

Hacker News、transformer内部でprogram executionを行うという Percepta の主張に注目

Perceptaは2026年3月11日の投稿で、transformer 内部に computer を構築し、arbitrary C program を数百万 step 実行し、2D attention head で inference を指数的に高速化できると主張した。HNの読者は刺激的な研究方向として受け止めつつも、より明確な説明、benchmark、拡張性の根拠を求めた。

#transformers #inference #llm-research