Skip to content

#inference

RSS Feed
AI X/Twitter Apr 2, 2026 1 min read

NVIDIADCは2026年3月17日のX投稿で、Groq 3 LPXをVera Rubin platform向けのrack-scale low-latency inference acceleratorとして紹介した。NVIDIAの3月16日付press releaseとtechnical blogによれば、LPXは256基のLPU、128GBのon-chip SRAM、640 TB/sのscale-up bandwidthを備え、Vera Rubin NVL72と組み合わせてagentic AI向けのheterogeneous inference pathを形成する。

LLM X/Twitter Apr 1, 2026 1 min read

Together Researchは2026年3月31日、live inference traceから学習し、speculative draft modelをserving停止なしに非同期更新するopen-source frameworkのAuroraを公開した。ブログと論文によれば、Auroraはこの問題をasynchronous RLとして定式化し、traffic shift時に強いstatic speculator比で1.25xの追加高速化を示す。