找回密码
 加入怎通
查看: 215|回复: 3

华为推出准万亿参数盘古Ultra MoE模型

[复制链接]
gdfdgdfd 发表于 2025-05-31 12:37:03 | 显示全部楼层 |阅读模式
在线python运行       ( v4 }$ @4 x6 T! p" k# O3 ?8 r
5月30日, 华为推出全新AI模型——盘古 Ultra MoE,其参数规模高达7180亿。这一准万亿参数的MoE(Mixture of Experts)模型,全程在华为昇腾 AI 计算平台上进行训练,意味着华为在超大规模模型训练领域取得了重大突破。
, h" z% T  Q9 {& h! S4 Y4 g盘古 Ultra MoE 的成功训练,得益于盘古团队提出的创新技术。其中,Depth-Scaled Sandwich-Norm(DSSN)稳定架构的引入,有效解决了超大规模模型训练中的梯度异常和范数波动问题。通过在每个子层输出后加入额外的层归一化,并结合深度缩放的初始化方式,DSSN架构确保了模型训练的长期稳定性。此外,TinyInit 小初始化方法,采用标准差为 (2/(d·L)) 的初始化策略,进一步优化了模型训练过程。
1 y/ }/ B4 Y* O3 q7 {7 o在训练方法上,华为团队首次披露了在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习(RL)后训练框架的关键技术。这一技术的突破,使得 RL 后训练正式进入超节点集群时代,为强化学习在超大规模模型中的应用奠定了基础。2 K+ b! Z8 ~  _* U. k
在5月初发布的预训练系统加速技术基础上,华为团队在不到一个月的时间内完成了新一轮迭代升级。此次升级包括:适配昇腾硬件的自适应流水掩盖策略,进一步优化算子执行序,降低 Host-Bound,提升 EP 通信掩盖;自适应管理内存优化策略的开发;数据重排实现 DP 间 Attention 负载均衡;以及昇腾亲和的算子优化。这些技术的应用,使得万卡集群预训练 MFU(混合精度计算利用率)由30%大幅提升至41%。
* Y/ ]# \5 M6 [9 l2 F; y4 ?
回复

使用道具 举报

骑猪寻茶 发表于 2025-11-11 04:30:12 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

za131717945 发表于 2026-02-21 21:05:09 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

有木有 发表于 2026-03-17 07:39:58 | 显示全部楼层
分析得很透彻,很多细节都说到点子上了~
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-17 07:40 , Processed in 0.072708 second(s), 23 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表