OpenPangu-2.0-Flash公開、92B total・6B active MoEにLocalLLaMAが注目
Original: Huawei open-sources OpenPangu-2.0-Flash - 92B total,6B active View original →
HuaweiのOpenPangu-2.0-FlashがLocalLLaMAで注目を集めた。投稿によると、OpenPangu 2.0は512K contextのモデルを2つ含む。Flashは92B total、6B activeのMoEで、weights、inference code、training opsが公開された。より大きいProは505B total、18B activeで、7月に出る予定とされている。
ここで重要なのはtotal parameterではなくactive parameterだ。Mixture-of-expertsモデルは総parameter数が大きくても、tokenごとに一部のexpertだけを動かす。92Bと聞くとdatacenter向けに見えるが、6B activeならoffloadやquantizationを使ったlocal実験の範囲に近づく。
Redditの議論もそこを見ていた。久しぶりの“upper local”モデルとして歓迎する声があり、6B activeならMoE offloadで扱えるという評価もあった。一方で、「Gemma 4より上」といった比較は、どの構成との比較なのか不明確だという指摘も出ている。
大きな流れとしては、オープンモデル競争がさらに密になっている。Qwen、DeepSeek、Zhipuなどに続き、Panguもlocal modelコミュニティの会話に入った。ただし公開は入口にすぎない。実際に使われるかは、weightsの扱いやすさ、inference対応、quantized build、llama.cppなどのtoolingにかかっている。
Related Articles
開発者の関心は、localモデルが日常作業にどこまで使えるかに向かった。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
r/LocalLLaMAコミュニティで、Qwen 3.5-35B-A3BがGPT-OSS-120Bよりも優れた性能を示しながら、サイズは1/3に過ぎないとする投稿が高評価を得ています。