LLM Reddit 4h ago 1 min read
LocalLLaMA의 관심은 속도 숫자보다 FP4, DFlash speculative decoding, commodity GPU 조합이 실제로 어디까지 재현될 수 있느냐에 모였다.
LocalLLaMA의 관심은 속도 숫자보다 FP4, DFlash speculative decoding, commodity GPU 조합이 실제로 어디까지 재현될 수 있느냐에 모였다.
LocalLLaMA가 MiMo-V2.5-Pro에 크게 반응한 이유는 오픈소스와 스펙이 동시에 세게 들어왔기 때문이다. MIT 라이선스, 1.02T total, 42B active, 1M context라는 숫자는 매력적이었지만, 댓글은 곧바로 “이걸 누가 어떤 장비로 돌리나”로 넘어갔다.