RBF-Attentionを試した実験が示す、attentionを入れ替える難しさ
Original: [P] I replaced Dot-Product Attention with distance-based RBF-Attention (so you don't have to...) View original →
r/MachineLearningで165ポイント、23件のコメントを集めたこの投稿は、Transformer の中心にある scaled dot-product attention を distance-based RBF-Attention に置き換えたらどうなるかを記録した実験レポートだ。出発点は明快で、dot product はベクトルの向きだけでなく大きさにも強く影響されるため、norm の大きい key が softmax を押し切ってしまう場合がある、という問題意識だ。そこで著者は Euclidean distance に基づく類似度を使い、query と key が本当に近いときだけ高いスコアを与える構成を試した。
面白いのはアイデアそのものより、その実装過程だ。単純に torch.cdist を使うと巨大な距離行列が materialize されてすぐ OOM になるため、著者は式を変形し、softmax の shift-invariance を使って query norm を落とし、実質的に 2(Q·K)-||K||^2 に近い形で処理できると説明する。それでも PyTorch の fused SDPA には key norm penalty を差し込めないため、最終的には Triton で custom kernel を書く必要があった。
- distance ベースにすると通常の attention sink が失われるため、register tokens を追加して余った attention mass の受け皿を作った。
- RoPE は回転ベースの幾何なので Euclidean distance と相性が悪いとして外し、代わりに additive な SuSiE embedding を採用した。
- TinyStories 上の小さな causal model では baseline よりやや速い収束が見えたが、著者自身も FlashAttention をすぐ置き換える話ではないと述べている。
コメント欄でも、kernelized attention との関連を指摘する声や、最終的には hardware lottery が採用を決めるという指摘が出ていた。つまりこの投稿の価値は、次の標準 attention を宣言したことではなく、attention の根本仮定を変えると LLM スタック全体がどこで壊れるかを具体的に見せた点にある。
参照先は Reddit スレッド、技術ブログ、コードリポジトリ。
Related Articles
2026年3月20日のHacker NewsではAttention Residualsが議論され、固定residual additionの代わりにlearned depth-wise attentionを使う発想と、低いoverheadでの実装可能性が注目された。
r/MachineLearningで注目された投稿は、Attentionの本質をd^2最適化幾何として説明する非公式主張を共有した。反応は関心と懐疑が並存し、査読と再現性の確認が必須だという意見が優勢だった。
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。