Skip to content

#local-llm

RSS Feed
LLM Reddit Mar 30, 2026 1 min read

2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.

LLM Reddit Mar 26, 2026 1 min read

LocalLLaMA의 한 post는 Liquid AI의 LFM2-24B-A2B가 M4 Max browser에서 약 50 tokens per second로 동작한다고 주장하며 79 points와 11 comments를 모았다. Community의 관심은 sparse MoE architecture, ONNX packaging, 그리고 WebGPU가 local AI deployment target을 어디까지 넓힐 수 있는지에 집중됐다.