#benchmark

RSS Feed
LLM Reddit Mar 1, 2026 1 min read

r/LocalLLaMA의 게시글(점수 180, 댓글 53)은 CPU/GPU 하이브리드 MoE runtime <code>Krasis</code>의 장문 벤치마크를 공유했다. 핵심 주장은 “GPU로 prefill, CPU로 decode” 분리를 통해 VRAM이 부족한 환경에서 긴 컨텍스트 응답 대기 시간을 줄일 수 있다는 점이다.

© 2026 Insights. All rights reserved.