Skip to content

#optimization

RSS Feed
LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが反応したのは、「LLMが自分のruntimeを速くする」という冗談のような仕組みに、具体的なbenchmark数字が付いていたからだ。投稿者はllm-server v2の--ai-tuneがllama-server helpをcontextとして読み、flag組み合わせを試して最速configをcacheすると説明し、Qwen3.5-27B Q4_K_Mは18.5 tok/sから40.05 tok/sへ伸びたと共有した。

LLM Hacker News Apr 10, 2026 1 min read

Hacker News で注目された SkyPilot の記事は、coding agent がコードを触る前に papers と competing implementations を読むと <code>llama.cpp</code> 最適化の質が上がると主張した。TinyLlama 1.1B では x86 の text generation が 15%、ARM が 5% 改善し、総コストは約 29ドルだった。

AI Reddit Mar 20, 2026 1 min read

2026年3月17日にr/MachineLearningへ投稿されたClip to Grokスレッドは、クロール時点で56ポイントと20件のコメントを集めた。投稿者は、optimizer stepごとにdecoder weight rowをL2 clippingすることで、modular arithmetic benchmarkで18倍から66倍速いgeneralizationを得たと主張している。

AI Hacker News Mar 19, 2026 1 min read

2026年3月19日にHacker Newsで注目を集めたagent-satは、weighted MaxSAT benchmarkを相手にAIエージェントが実験とコード改良を繰り返すopen-source projectだ。READMEによれば、2024 MaxSAT Evaluationの229インスタンス中220件を解き、5件でcompetition bestを上回り、1件はnovel solveだという。

LLM Reddit Mar 13, 2026 1 min read

Redditのスレッドで arXiv 論文 2603.10145 が共有され、この論文は language model の output layer が単なる softmax expressivity の問題ではなく、gradient norm の 95〜99% を抑圧する optimization bottleneck だと主張している。議論は、より良い head 設計が LLM 学習効率を大きく変え得るかに集中した。