AI Hacker News Apr 13, 2026 1 min read
Hacker Newsのfront pageに上がったEE Times interviewは、AMDがROCm、Triton、OneROCm、open-sourceの運用でCUDA依存を段階的に削ろうとしていることを整理している。重要なのは派手な互換性宣言ではなく、vLLMやSGLangが自然に動くboringなsoftware完成度だ。
Hacker Newsのfront pageに上がったEE Times interviewは、AMDがROCm、Triton、OneROCm、open-sourceの運用でCUDA依存を段階的に削ろうとしていることを整理している。重要なのは派手な互換性宣言ではなく、vLLMやSGLangが自然に動くboringなsoftware完成度だ。
r/LocalLLaMA のベンチマーク投稿は、AMD Mi50 上の llama.cpp で ROCm 7 nightly と Vulkan を比較し、短い dense workload では Vulkan、長い context や一部 MoE では ROCm が有利だと報告した。
LocalLLaMAの投稿は、RX 9070 XT上でllama.cppの`--ubatch-size`を64まで下げたところ、Qwen3.5-27Bのprompt processingが大きく高速化したと報告した。重要なのは64が万能値だということではなく、prompt ingestionとtoken generationが`n_ubatch`に全く異なる反応を示しうる点だ。