Strix Halo 2台でvLLM cluster、焦点は100GbE RDMA設定
Original: AMD Strix Halo RDMA Cluster Setup Guide View original →
AMD Strix Halo RDMA Cluster Setup Guideは、local LLM実験の焦点が一台のmachineから複数node構成へ移っていることを示す。対象はAMD Ryzen AI Max 300 series搭載のFramework Desktop Mainboard 2台、各128GBのunified memory、Intel E810 100GbE NIC、Fedora 43という構成だ。目的はvLLMのtensor parallelismを2 nodeにまたがって動かすことにある。
重要なのはRDMAだ。guideはRayをcontrol plane、RCCLをAMD側のcollective communication、RoCE v2をdata planeとして説明している。tensor parallelismでは各layerの後にpartial resultを交換するため、帯域だけでなくlatencyが効く。通常のTCP/IPでは約70〜100µs、RDMAでは約5µsという差があり、interactive token generationではこの差が体感速度に直結する。
内容はかなり実務的だ。Fedora 43、BIOSとkernel parameter、static IP、MTU 9000、firewall trust、passwordless SSH、container内へのRDMA device公開、custom librccl.so patchを含むtoolbox手順まで扱う。Framework boardのPCIe slotが物理的にx4で、100GbE cardにはriserやadapterが必要という注意もある。slot改造の例は出てくるが、guideは安全なriser利用を勧めている。
HNの議論はhomelab LLMの現実的な境界に集中した。128GBや256GB級のunified memoryをconsumer寄りのhardwareで束ねられる可能性には期待が集まった一方、cost、token speed、PCIe lane制約、NICの発熱、Apple machineでThunderbolt経由のRDMAが開けるかといった疑問も出ている。
これは完成品の発表ではなく、組み立て手順に近い。その点がむしろ重要だ。local LLMの性能はmodel fileだけでなく、memory、interconnect、container、serving orchestrationの総合設計で決まる。cloud GPU以外で大きなmodelを扱いたいbuilderにとって、このguideは必要な作業を具体的なcommandの粒度まで落としている。
Related Articles
LocalLLaMAでは、2026年3月11日に公開されたFastFlowLMとLemonadeの更新により、AMD XDNA 2 NPUでLinux上のLLM実行経路がかなり具体化したと受け止められた。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。
Redditで注目されたのは、Claude代替という見出しよりもtool call error rate 12%という具体的な限界だった。