OpenPangu-2.0-Flash公開、92B total・6B active MoEにLocalLLaMAが注目

HuaweiのOpenPangu-2.0-FlashがLocalLLaMAで注目を集めた。投稿によると、OpenPangu 2.0は512K contextのモデルを2つ含む。Flashは92B total、6B activeのMoEで、weights、inference code、training opsが公開された。より大きいProは505B total、18B activeで、7月に出る予定とされている。

ここで重要なのはtotal parameterではなくactive parameterだ。Mixture-of-expertsモデルは総parameter数が大きくても、tokenごとに一部のexpertだけを動かす。92Bと聞くとdatacenter向けに見えるが、6B activeならoffloadやquantizationを使ったlocal実験の範囲に近づく。

Redditの議論もそこを見ていた。久しぶりの“upper local”モデルとして歓迎する声があり、6B activeならMoE offloadで扱えるという評価もあった。一方で、「Gemma 4より上」といった比較は、どの構成との比較なのか不明確だという指摘も出ている。

大きな流れとしては、オープンモデル競争がさらに密になっている。Qwen、DeepSeek、Zhipuなどに続き、Panguもlocal modelコミュニティの会話に入った。ただし公開は入口にすぎない。実際に使われるかは、weightsの扱いやすさ、inference対応、quantized build、llama.cppなどのtoolingにかかっている。

LLM Hacker News 3h ago 1 min read

Qwen 3.6 27B、local開発モデルの現実的なsweet spotか

開発者の関心は、localモデルが日常作業にどこまで使えるかに向かった。

#qwen #local-llm #developer-tools

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

LLM Reddit Mar 1, 2026 1 min read

Qwen 3.5-35B-A3B、GPT-OSS-120Bを超えてデイリードライバーに——サイズは1/3

r/LocalLLaMAコミュニティで、Qwen 3.5-35B-A3BがGPT-OSS-120Bよりも優れた性能を示しながら、サイズは1/3に過ぎないとする投稿が高評価を得ています。

#qwen #local-llm #open-source

Related Articles

Qwen 3.6 27B、local開発モデルの現実的なsweet spotか

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

Qwen 3.5-35B-A3B、GPT-OSS-120Bを超えてデイリードライバーに——サイズは1/3