#rtx-5090

LLM Reddit Apr 27, 2026 1 min read

Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質

LocalLLaMAが食いついたのは派手な速度自慢だけではない。Qwen3.6-27B-INT4をRTX 5090一枚で105-108 tps、しかも256k native contextで回したという投稿に対し、議論はすぐに「その速さで品質は持つのか」に集まった。

#qwen #vllm #rtx-5090

LLM Reddit Apr 25, 2026 1 min read

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。

#qwen #vllm #rtx-5090

AI Reddit Apr 11, 2026 1 min read

Redditが指摘したRTX 5090のバッチFP32 workloadにおけるcuBLAS性能異常

MachineLearningコミュニティの投稿は、RTX 5090でcuBLASがbatched FP32 MatMulに非効率なkernelを選んでいる可能性を指摘する。重要なのは、単なる不満ではなく、再現可能なbenchmark表とprofiling情報を伴うdispatch問題の提起になっている点だ。

#cublas #rtx-5090 #cuda

LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMA: 文書分類ワークロードでQwen 3.5 27Bが約2000 TPS

r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。

#qwen #localllm #llama-cpp

#rtx-5090

Qwen3.6 27BがRTX 5090一枚で100 tps LocalLLaMAが先に聞いたのは品質

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

Redditが指摘したRTX 5090のバッチFP32 workloadにおけるcuBLAS性能異常

r/LocalLLaMA: 文書分類ワークロードでQwen 3.5 27Bが約2000 TPS

Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質