llama.cppのRDNA3向けFlash Attention、local LLMのVRAM制約に一手

LocalLLaMAに投稿されたllama.cpp向けFlash AttentionのRDNA3実験は、local LLMで避けにくいメモリ制約を扱っている。投稿タイトルでは、Vulkan f16 K基準と比べてKV VRAMを47%削減し、F16 K / q4_0 V構成でもKLD上の損失がほぼないとされている。Part 1として出された内容なので、最終的なベンチマークというより実験報告として読むのが自然だ。

重要なのは、local LLMの上限がモデル重みのサイズだけで決まらない点だ。量子化でモデル本体は小さくできても、長いcontextではKV cacheが急速にVRAMを使う。複数セッション、長いプロンプト、batching、agent的な反復実行が入ると、attention状態を保持するコストが実用上の壁になる。

RDNA3は、NVIDIA CUDA以外でlocal inferenceを進めたいユーザーにとって大きな対象だ。llama.cppがVulkanや各種backendを磨き続ける意味もそこにある。Flash Attention系の実装はattention計算のメモリ移動を減らし、KV quantizationはcontext保持の費用を下げる。両方が効けば、同じGPUでより長いcontextや大きめのモデルを試す余地が生まれる。

この投稿が示す価値は、すべてのGPU比較を決着させることではない。AMDデスクトップGPUでKV cacheがどこから支配的になるのか、llama.cppを調整する利用者が知りたい問いを具体的な数字に近づけている。

LLM Hacker News 6d ago 1 min read

低速PCでGLM-5.2を動かすColibri、焦点はGPUではなくメモリ移動

注目点は、巨大なMoEモデルを普通のPCで実用的に動かせるのかという現実的な問いだ。ColibriはGLM-5.2の疎な活性化を使い、モデル全体をRAMやGPUへ一度に載せない設計を取る。

#glm-5.2 #local-ai #inference

LLM X/Twitter Jul 9, 2026 1 min read

GPT-Live、ChatGPT音声を同時に聞いて話すフルデュプレックス型へ移行

ChatGPTの音声体験は、発話を待つ方式から同時に聞いて話す方式へ進む。OpenAIのGPT-Live投稿は51万回以上表示され、音声AIの競争軸が遅延と割り込み処理に移りつつあることを示した。

#openai #gpt-live #voice-ai

LLM X/Twitter 1d ago 1 min read

OpenAI agent製品の利用が1週間で2.5倍、Codex業務需要を示す重要数字として市場に浮上

Sam Altman氏は、OpenAIのagent製品の利用が1週間で2.5倍になったと投稿した。CodexやChatGPT Workが一時的な試用から継続的な業務利用へ移るかを測る材料になる。

#openai #codex #agents

Related Articles

低速PCでGLM-5.2を動かすColibri、焦点はGPUではなくメモリ移動

GPT-Live、ChatGPT音声を同時に聞いて話すフルデュプレックス型へ移行

OpenAI agent製品の利用が1週間で2.5倍、Codex業務需要を示す重要数字として市場に浮上