Strix Halo 2台でvLLM cluster、焦点は100GbE RDMA設定

AMD Strix Halo RDMA Cluster Setup Guideは、local LLM実験の焦点が一台のmachineから複数node構成へ移っていることを示す。対象はAMD Ryzen AI Max 300 series搭載のFramework Desktop Mainboard 2台、各128GBのunified memory、Intel E810 100GbE NIC、Fedora 43という構成だ。目的はvLLMのtensor parallelismを2 nodeにまたがって動かすことにある。

重要なのはRDMAだ。guideはRayをcontrol plane、RCCLをAMD側のcollective communication、RoCE v2をdata planeとして説明している。tensor parallelismでは各layerの後にpartial resultを交換するため、帯域だけでなくlatencyが効く。通常のTCP/IPでは約70〜100µs、RDMAでは約5µsという差があり、interactive token generationではこの差が体感速度に直結する。

内容はかなり実務的だ。Fedora 43、BIOSとkernel parameter、static IP、MTU 9000、firewall trust、passwordless SSH、container内へのRDMA device公開、custom librccl.so patchを含むtoolbox手順まで扱う。Framework boardのPCIe slotが物理的にx4で、100GbE cardにはriserやadapterが必要という注意もある。slot改造の例は出てくるが、guideは安全なriser利用を勧めている。

HNの議論はhomelab LLMの現実的な境界に集中した。128GBや256GB級のunified memoryをconsumer寄りのhardwareで束ねられる可能性には期待が集まった一方、cost、token speed、PCIe lane制約、NICの発熱、Apple machineでThunderbolt経由のRDMAが開けるかといった疑問も出ている。

これは完成品の発表ではなく、組み立て手順に近い。その点がむしろ重要だ。local LLMの性能はmodel fileだけでなく、memory、interconnect、container、serving orchestrationの総合設計で決まる。cloud GPU以外で大きなmodelを扱いたいbuilderにとって、このguideは必要な作業を具体的なcommandの粒度まで落としている。

Strix Halo 2台でvLLM cluster、焦点は100GbE RDMA設定

Related Articles

LocalLLaMA、AMD Ryzen AI NPUでLinux上のLLM実行が現実味を帯びたと注目

Gemma 4 12B、encoder-free multimodal設計でローカルAI議論の中心へ

Qwen3.6-27Bのlocal agent実験、計画は有望でも実行にはgateが必要