LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.
#optimization
RSS FeedLocalLLaMA가 반응한 포인트는 “LLM이 스스로 빨라진다”는 농담 같은 구조가 실제 benchmark 숫자로 이어졌다는 점이었다. 작성자는 llm-server v2의 --ai-tune이 llama-server help를 context로 읽고 flag 조합을 돌며 fastest config를 cache한다고 설명했고, Qwen3.5-27B Q4_K_M은 18.5 tok/s에서 40.05 tok/s까지 올라갔다고 공유했다.
Hacker News에서 주목한 SkyPilot 글은 coding agent가 코드를 건드리기 전에 논문과 경쟁 구현을 읽도록 하면 llama.cpp CPU inference 최적화 품질이 실제로 올라간다고 주장했다. 4대의 cloud VM과 약 29달러 비용으로 TinyLlama 1.1B 기준 x86 text generation을 15%, ARM을 5% 끌어올렸다는 점이 핵심이다.
Hacker News는 2026년 3월 30일 공개된 Meta의 BOxCrete를 산업용 AI 적용 사례로 다시 끌어올렸다. 이 글은 optimization model, 공개 데이터, 그리고 미국 내 소재 조달이라는 목표가 concrete 설계 문제에서 어떻게 결합되는지를 보여준다.
2026년 3월 17일 r/MachineLearning에 올라온 Clip to Grok 글은 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들은 optimizer step마다 decoder weight row를 L2 clipping하는 방식으로 modular arithmetic benchmark에서 18배에서 66배 빠른 generalization을 얻었다고 주장한다.
2026년 3월 19일 Hacker News에서 주목받은 agent-sat는 weighted MaxSAT benchmark를 상대로 스스로 실험과 코드 수정을 반복하는 오픈소스 프로젝트다. README 기준으로 2024 MaxSAT Evaluation 229개 인스턴스 중 220개를 풀었고, 5개는 대회 최고 기록을 넘어섰으며, 1개는 novel solve라고 주장한다.
한 Reddit 스레드는 arXiv 논문 2603.10145를 끌어올렸고, 이 논문은 language model의 output layer가 단순한 softmax expressivity 문제가 아니라 gradient norm의 95~99%를 억제하는 optimization bottleneck일 수 있다고 주장한다. 토론은 더 나은 head 설계가 LLM 학습 효율을 크게 바꿀 수 있는지에 집중됐다.
2026년 3월 4일 HN에서 Q Labs의 Slowrun 벤치마크가 주목을 받았다. 100M FineWeb tokens를 고정한 채 compute를 활용해 data efficiency를 끌어올리는 접근이 핵심이다.
LEGO Batman: Legacy of the Dark Knight의 Steam News 공지에서 권장 PC 메모리가 32GB에서 16GB로 조정됐으며, 출시 전까지 스펙은 최종본이 아니라고 명시했다.
r/pcgaming 스레드(723점, 댓글 118)는 Steam 공식 공지(PC System Specs Update)를 근거로 LEGO Batman: Legacy of the Dark Knight의 권장 RAM이 32GB에서 16GB로 조정됐고, 사양은 아직 최종이 아니라고 전했다.
r/LocalLLaMA 인기 글은 llama.cpp PR #19375 병합 소식을 공유하며 Qwen3Next 추론 성능 향상을 집중 조명했다. PR 설명과 커뮤니티 벤치마크 모두에서 불필요한 copy 감소에 따른 t/s 개선이 보고됐다.
2026년 2월 13일 r/LocalLLaMA 게시글이 DMS(Dynamic Memory Sparsification)로 KV 캐시 메모리를 최대 8배 줄이면서 정확도를 유지할 수 있다는 내용을 공유했다. 커뮤니티는 추론 비용과 동시성 개선 가능성에 주목했지만, 1차 출처 검증 필요성도 함께 제기했다.