#localllama

RSSフィード

LLM Reddit Jun 18, 2026 1 min read

ローカルLLMに空いた80-160Bの中間層、unified memory勢の現実的な要望

LocalLLaMAの議論は、巨大モデルへの憧れではなく、96-128GB級メモリを持つユーザーが使える新しい中間モデルの不足を指している。

#localllama #local-llm #unified-memory

LLM Reddit Jun 6, 2026 1 min read

Cohere未公開coding model、LocalLLaMAが先に試す30B/3B構成

LocalLLaMAで話題になったのは新しいcoding modelそのものだけでなく、Cohereが正式公開前のweightsを先にコミュニティへ渡した点だった。

#cohere #localllama #coding-model

LLM Reddit Apr 25, 2026 1 min read

Qwen 3.6 27BでLocalLLaMAが沸いた理由、ただの新作ではなくdense復権感

LocalLLaMAが盛り上がったのは、単なるベンチマーク更新ではなかった。公式スコアも強いが、本当の熱量はFP8やGGUF、VRAM適合の話がすぐ始まったことにあった。2026年4月25日時点でスレッドは1,688ポイント、603コメントだった。

#qwen #open-weights #coding-models

LLM Reddit Apr 23, 2026 1 min read

MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値

r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。

#localllama #benchmark #qwen

LLM Reddit Apr 23, 2026 1 min read

LocalLLaMAのGemma 4翻訳例、「自分で動かす」価値に反応

r/LocalLLaMAの投稿は正式なbenchmarkではないが、hosted modelがupdateやfilterで揺れる中、local modelのcontrolが価値になるというcommunity moodをよく表している。

#localllama #gemma #local-llm

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMAが共有した university hospital 研究室の 1B+ tokens/day ローカル serving 設計

r/LocalLLaMA の self-post が、2x H200 上で GPT-OSS-120B を回しながら 1 日あたり 10 億 token 超を処理する内部 serving stack を公開した。vLLM、LiteLLM、mxfp4、queueing bottleneck まで含めた具体的な運用データがコミュニティの注目を集めている。

#localllama #vllm #litellm

LLM Reddit Apr 5, 2026 1 min read

LocalLLaMAで議論: Gemma 4 31B の FoodTruck Bench 上位進出

LocalLLaMA のスレッドが Gemma 4 31B の予想外に強い FoodTruck Bench 成績を取り上げた。議論はすぐに長期計画能力と benchmark の信頼性へ広がった。

#llm #gemma #benchmarks

LLM Reddit Mar 18, 2026 1 min read

r/LocalLLaMAが追ったtransformerの“danger zone”、layer duplicationが効く場所と壊れる場所

r/LocalLLaMAの実験投稿は、model depthの約50〜56%付近でlayerを複製すると性能低下やoutput崩壊が起きると主張する。Dense、hybrid、MoE、transplantをまとめて比べている点で、単なる anecdote より一歩踏み込んでいる。

#transformers #model-surgery #localllama

LLM Reddit Mar 1, 2026 1 min read

r/LocalLLaMA検証: <code>Krasis</code>が単一RTX 5080で80B MoEの3,324 tok/s prefillを報告

r/LocalLLaMAの投稿（スコア180、コメント53）は、MoE向けハイブリッドruntime <code>Krasis</code>のベンチマークを共有した。主張は、GPU中心のprefillとCPU decodeの分離により、consumer環境でも長文contextの待ち時間を短縮できるという点にある。

#moe #inference-runtime #llm-serving

LLM Reddit Feb 28, 2026 1 min read

r/LocalLLaMAでLLmFit共有、ハードウェア別モデル推薦に期待と検証要求が並立

LLmFitはハードウェア適合モデル探索の自動化ツールとして注目されたが、Redditでは互換性前提や推薦精度の検証を求める声も強かった。

#llmfit #model-selection #hardware

LLM Reddit Feb 28, 2026 1 min read

r/LocalLLaMAでQwen3.5 Dynamic GGUF更新を検証、150回超KLDとtensor別量子化が論点

r/LocalLLaMAの高反応投稿で、UnslothのQwen3.5-35B-A3B Dynamic GGUF更新が共有され、KLD/PPL指標と下流評価の両立が議論された。

#qwen #quantization #gguf

LLM Reddit Feb 20, 2026 1 min read

LocalLLaMAでKitten TTS v0.8が話題、軽量オンデバイスTTSに注目

LocalLLaMAの高反応投稿でKitten TTS v0.8が注目を集めた。80M/40M/14Mの公開モデルとCPU実行、最小25MB未満という軽量性が論点になっている。

#tts #localllama #edge-ai