华为发布全新大模型:Pangu Ultra-MoE-718B-V1.1

DreamActor 团队 2025-11-18 5 分钟阅读

华为发布了最新的稀疏专家大模型 Pangu Ultra-MoE-718B-V1.1

模型总参数量达到 718B,激活参数量约 39B,属于超大规模 Mixture-of-Experts(MoE)架构,兼具高容量与高推理效率。


关键特点

718B 参数规模,39B 激活参数

Ultra-MoE-718B-V1.1 采用稀疏专家架构(MoE),推理时只调用部分专家,使得成本远低于同等规模的稠密模型,但依然保持强大的表达能力。


支持 Atlas 800T A2 推理(经定制优化的 vLLM)

官方展示中,该模型可在 Atlas 800T A2(64GB 显存) 上完成推理。

依托经过深度定制的 vLLM(MoE + 高并行优化版),模型可在多卡集群上运行。

由于显存与 KV Cache 需求巨大,推理通常至少需要 32 张卡并行


数学与逻辑能力表现强

Ultra-MoE-718B-V1.1 在多项数学 benchmark 上表现优秀,尤其是:

  • AIME25:77.50%

接近:

  • Gemini 2.5 Flash:78.3%

表明其在数学推理、逻辑推演、严谨问题求解方面具有较高水准的能力。


关于部分基准成绩的讨论

官方给出的某些代码类 benchmark(如 LiveCodeBench)存在争议,不完全反映真实效果。

比如榜单中评分较高的 GPT-OSS-120B

  • 实际代码质量不稳定

  • 仅有 4K 上下文,无法容纳《哈利波特与魔法石》第一章(20K+)

  • 实测与排行榜评价不匹配

因此这些 benchmark 的可靠性需谨慎对待,不影响 Ultra-MoE-718B-V1.1 本身的数学/推理相关能力表现。


模型架构亮点

  • 稀疏专家(MoE)结构

    Top-k Routing 选择最适合当前 token 的专家组合。

  • 高效并行策略(Expert Parallelism)

    面向大规模集群的专家分布式并行。

  • 定制 vLLM 推理框架

    提升推理吞吐、降低延迟、提高专家调度效率。

  • 39B 激活参数

    在 MoE 稀疏化下依然具备极强的有效容量。


应用方向

  • 数学推理、逻辑推理任务

  • 高难度问答

  • 长文本理解

  • 多轮对话

  • 科研类总结、结构化内容处理

  • 代码生成(需结合实际表现验证)


总结

Pangu Ultra-MoE-718B-V1.1 是目前规模最大的 MoE 模型之一,特点包括:

  • 718B 总参数

  • 39B 激活参数

  • 支持大规模多卡推理

  • 数学能力强劲

  • 架构工程上进行了深度优化

它代表了当前 MoE 路线在工程化能力、模型规模与推理性能方面的重要进展。