华为发布全新大模型:Pangu Ultra-MoE-718B-V1.1
华为发布了最新的稀疏专家大模型 Pangu Ultra-MoE-718B-V1.1。
模型总参数量达到 718B,激活参数量约 39B,属于超大规模 Mixture-of-Experts(MoE)架构,兼具高容量与高推理效率。
关键特点
718B 参数规模,39B 激活参数
Ultra-MoE-718B-V1.1 采用稀疏专家架构(MoE),推理时只调用部分专家,使得成本远低于同等规模的稠密模型,但依然保持强大的表达能力。
支持 Atlas 800T A2 推理(经定制优化的 vLLM)
官方展示中,该模型可在 Atlas 800T A2(64GB 显存) 上完成推理。
依托经过深度定制的 vLLM(MoE + 高并行优化版),模型可在多卡集群上运行。
由于显存与 KV Cache 需求巨大,推理通常至少需要 32 张卡并行。
数学与逻辑能力表现强
Ultra-MoE-718B-V1.1 在多项数学 benchmark 上表现优秀,尤其是:
- AIME25:77.50%
接近:
- Gemini 2.5 Flash:78.3%
表明其在数学推理、逻辑推演、严谨问题求解方面具有较高水准的能力。
关于部分基准成绩的讨论
官方给出的某些代码类 benchmark(如 LiveCodeBench)存在争议,不完全反映真实效果。
比如榜单中评分较高的 GPT-OSS-120B:
实际代码质量不稳定
仅有 4K 上下文,无法容纳《哈利波特与魔法石》第一章(20K+)
实测与排行榜评价不匹配
因此这些 benchmark 的可靠性需谨慎对待,不影响 Ultra-MoE-718B-V1.1 本身的数学/推理相关能力表现。
模型架构亮点
稀疏专家(MoE)结构
Top-k Routing 选择最适合当前 token 的专家组合。
高效并行策略(Expert Parallelism)
面向大规模集群的专家分布式并行。
定制 vLLM 推理框架
提升推理吞吐、降低延迟、提高专家调度效率。
39B 激活参数
在 MoE 稀疏化下依然具备极强的有效容量。
应用方向
数学推理、逻辑推理任务
高难度问答
长文本理解
多轮对话
科研类总结、结构化内容处理
代码生成(需结合实际表现验证)
总结
Pangu Ultra-MoE-718B-V1.1 是目前规模最大的 MoE 模型之一,特点包括:
718B 总参数
39B 激活参数
支持大规模多卡推理
数学能力强劲
架构工程上进行了深度优化
它代表了当前 MoE 路线在工程化能力、模型规模与推理性能方面的重要进展。