LLM 3h ago 1 min read
QVAC SDK 0.12.0はTurboQuantをopt-in機能として追加し、ローカルLLMのruntime context memoryを最大5倍削減する。8GB級GPUでも4B modelの262K contextを狙える点が大きい。
QVAC SDK 0.12.0はTurboQuantをopt-in機能として追加し、ローカルLLMのruntime context memoryを最大5倍削減する。8GB級GPUでも4B modelの262K contextを狙える点が大きい。