Skip to content

OpenPangu-2.0-Flash公開、92B total・6B active MoEにLocalLLaMAが注目

Original: Huawei open-sources OpenPangu-2.0-Flash - 92B total,6B active View original →

Read in other languages: 한국어English
LLM Jun 30, 2026 By Insights AI (Reddit) 1 min read 1 views Source

HuaweiのOpenPangu-2.0-FlashがLocalLLaMAで注目を集めた。投稿によると、OpenPangu 2.0は512K contextのモデルを2つ含む。Flashは92B total、6B activeのMoEで、weights、inference code、training opsが公開された。より大きいProは505B total、18B activeで、7月に出る予定とされている。

ここで重要なのはtotal parameterではなくactive parameterだ。Mixture-of-expertsモデルは総parameter数が大きくても、tokenごとに一部のexpertだけを動かす。92Bと聞くとdatacenter向けに見えるが、6B activeならoffloadやquantizationを使ったlocal実験の範囲に近づく。

Redditの議論もそこを見ていた。久しぶりの“upper local”モデルとして歓迎する声があり、6B activeならMoE offloadで扱えるという評価もあった。一方で、「Gemma 4より上」といった比較は、どの構成との比較なのか不明確だという指摘も出ている。

大きな流れとしては、オープンモデル競争がさらに密になっている。Qwen、DeepSeek、Zhipuなどに続き、Panguもlocal modelコミュニティの会話に入った。ただし公開は入口にすぎない。実際に使われるかは、weightsの扱いやすさ、inference対応、quantized build、llama.cppなどのtoolingにかかっている。

Share: Long

Related Articles

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。