Skip to content

#optimization

RSS Feed
LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 반응한 포인트는 “LLM이 스스로 빨라진다”는 농담 같은 구조가 실제 benchmark 숫자로 이어졌다는 점이었다. 작성자는 llm-server v2의 --ai-tune이 llama-server help를 context로 읽고 flag 조합을 돌며 fastest config를 cache한다고 설명했고, Qwen3.5-27B Q4_K_M은 18.5 tok/s에서 40.05 tok/s까지 올라갔다고 공유했다.

LLM Hacker News Apr 10, 2026 1 min read

Hacker News에서 주목한 SkyPilot 글은 coding agent가 코드를 건드리기 전에 논문과 경쟁 구현을 읽도록 하면 llama.cpp CPU inference 최적화 품질이 실제로 올라간다고 주장했다. 4대의 cloud VM과 약 29달러 비용으로 TinyLlama 1.1B 기준 x86 text generation을 15%, ARM을 5% 끌어올렸다는 점이 핵심이다.

AI Reddit Mar 20, 2026 1 min read

2026년 3월 17일 r/MachineLearning에 올라온 Clip to Grok 글은 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들은 optimizer step마다 decoder weight row를 L2 clipping하는 방식으로 modular arithmetic benchmark에서 18배에서 66배 빠른 generalization을 얻었다고 주장한다.

AI Hacker News Mar 19, 2026 1 min read

2026년 3월 19일 Hacker News에서 주목받은 agent-sat는 weighted MaxSAT benchmark를 상대로 스스로 실험과 코드 수정을 반복하는 오픈소스 프로젝트다. README 기준으로 2024 MaxSAT Evaluation 229개 인스턴스 중 220개를 풀었고, 5개는 대회 최고 기록을 넘어섰으며, 1개는 novel solve라고 주장한다.

LLM Reddit Mar 13, 2026 1 min read

한 Reddit 스레드는 arXiv 논문 2603.10145를 끌어올렸고, 이 논문은 language model의 output layer가 단순한 softmax expressivity 문제가 아니라 gradient norm의 95~99%를 억제하는 optimization bottleneck일 수 있다고 주장한다. 토론은 더 나은 head 설계가 LLM 학습 효율을 크게 바꿀 수 있는지에 집중됐다.