OpenPangu-2.0-Flash 공개, 92B total·6B active MoE에 쏠린 관심

Huawei의 OpenPangu-2.0-Flash가 LocalLLaMA에서 빠르게 관심을 모았다. 게시글에 따르면 OpenPangu 2.0 라인은 512K context 모델 두 개로 구성된다. Flash는 92B total, 6B active 구조이며 weights, inference code, training ops가 공개됐다. 더 큰 Pro 모델은 505B total, 18B active로 7월 공개 예정이라고 소개됐다.

이 숫자에서 중요한 부분은 total parameter보다 active parameter다. MoE 모델은 전체 parameter가 커도 한 token을 처리할 때 일부 expert만 활성화된다. 그래서 92B라는 표기만 보면 대형 서버 모델처럼 보이지만, 6B active라면 offload나 quantization을 곁들여 local 실험 범위에 걸칠 수 있다.

댓글의 관심도 그 지점에 있었다. “upper local” 모델이 오랜만에 나왔다는 반응과 함께, 6B active는 MoE offload에서 충분히 다뤄볼 만하다는 평가가 나왔다. 반대로 “Gemma 4보다 위” 같은 비교 문구는 기준이 모호하다는 지적도 있었다. 공개 모델이라도 benchmark 문장 하나로 성능을 단정하기 어렵다는 분위기다.

OpenPangu-2.0-Flash의 의미는 중국발 오픈 모델 경쟁이 더 촘촘해지고 있다는 데 있다. Zhipu, Qwen, DeepSeek 계열에 이어 Pangu까지 이름이 오르면서, local LLM 커뮤니티는 모델 품질뿐 아니라 release 방식, llama.cpp 지원, 실제 quant 생태계를 함께 본다. weight 공개는 시작일 뿐이고, 다음 관문은 개발자들이 바로 돌릴 수 있는 형태로 얼마나 빨리 내려오느냐다.

LLM Hacker News 3h ago 1 min read

Qwen 3.6 27B, local 개발용 모델의 현실적 sweet spot인가

privacy와 비용을 잡으려는 개발자들이 Qwen 3.6 27B의 “충분히 쓸 만한” 지점을 파고들었다.

#qwen #local-llm #developer-tools

LLM Reddit Apr 16, 2026 1 min read

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

#local-llm #llama-cpp #moe

LLM Reddit Mar 1, 2026 1 min read

Qwen 3.5-35B-A3B, GPT-OSS-120B 대체하는 최고 로컬 LLM으로 부상

r/LocalLLaMA 커뮤니티에서 Qwen 3.5-35B-A3B 모델이 GPT-OSS-120B보다 뛰어난 성능을 보이면서도 크기는 1/3에 불과하다는 평가가 높은 공감을 얻고 있습니다.

#qwen #local-llm #open-source

Related Articles

Qwen 3.6 27B, local 개발용 모델의 현실적 sweet spot인가

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상

Qwen 3.5-35B-A3B, GPT-OSS-120B 대체하는 최고 로컬 LLM으로 부상