Skip to content
LLM Reddit Mar 8, 2026 1 min read

LocalLLaMA의 한 글은 RX 9070 XT에서 llama.cpp `--ubatch-size`를 64로 낮췄더니 Qwen3.5-27B의 prompt processing 속도가 크게 뛰었다고 보고했다. 핵심은 64가 만능값이라는 것이 아니라, prompt ingestion과 token generation이 `n_ubatch`에 전혀 다르게 반응할 수 있다는 점이다.