Strix Halo 두 대로 vLLM cluster, 관건은 100GbE RDMA 설정

AMD Strix Halo RDMA Cluster Setup Guide는 로컬 LLM 실험이 어디까지 내려왔는지를 잘 보여준다. 대상은 Framework Desktop Mainboard AMD Ryzen AI Max 300 series 두 대, 각 128GB unified memory, Intel E810 100GbE NIC, Fedora 43 조합이다. 목표는 vLLM의 tensor parallelism을 두 노드에 걸쳐 돌리고, Ray가 control plane을 맡고, RCCL과 RoCE v2가 tensor synchronization의 data plane을 처리하게 만드는 것이다.

가이드의 핵심은 RDMA다. 문서는 일반 TCP/IP 경로에서는 latency가 대략 70~100µs 수준이지만, RoCE v2를 쓰면 약 5µs까지 줄일 수 있다고 설명한다. Tensor parallelism에서는 layer마다 partial result를 교환해야 하므로, 대역폭만큼 latency가 중요하다. 두 노드를 그냥 네트워크로 연결하는 것과, GPU/APU 메모리 교환에 가까운 경로를 만드는 것은 interactive token generation에서 차이가 커진다.

실전 설정은 꽤 구체적이다. BIOS와 kernel parameter, static IP, MTU 9000, firewall trust, passwordless SSH, RDMA device detection, custom librccl.so patch가 포함된 toolbox refresh 절차가 정리돼 있다. Framework 보드의 PCIe slot이 물리적으로 x4라 100GbE card에 riser가 필요하다는 점, x16 card를 직접 꽂기 위한 물리 개조는 권하지 않는다는 주의도 적혀 있다.

HN 댓글은 homelab LLM의 현실적인 경계에 집중했다. 128GB 또는 256GB unified memory를 consumer-ish hardware로 묶을 수 있다는 점에는 기대가 컸지만, 비용과 실제 token speed, Apple Thunderbolt RDMA 가능성, PCIe lane 한계 같은 질문도 바로 따라붙었다. “로컬 AI가 실용권에 들어오려면 조금 더 속도와 모델 개선이 필요하다”는 식의 반응이 특히 맥락을 잘 잡는다.

이 가이드는 완제품보다 조립 설명서에 가깝다. 그 점이 오히려 의미 있다. 로컬 LLM의 병목은 이제 model file 다운로드가 아니라 memory, interconnect, container, serving stack의 합이다. Strix Halo cluster는 아직 값싼 선택지는 아니지만, 개인이나 작은 연구팀이 대형 GPU 서버 바깥에서 긴 context와 큰 model을 다루려는 방향을 구체적인 명령어 수준으로 보여준다.

Strix Halo 두 대로 vLLM cluster, 관건은 100GbE RDMA 설정

Related Articles

LocalLLaMA, AMD Ryzen AI NPU에서 Linux로 LLM을 돌리는 새 경로에 주목

Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심

Qwen3.6-27B로 2주간 agent orchestration, 실행보다 계획에 강한 이유