集微网消息,9月20日,在华为全联接大会2023期间,华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛正式发布全新架构的昇腾AI计算集群——Atlas 900 SuperCluster,可支持超万亿参数的大模型训练。
据汪涛介绍,新集群采用全新的华为星河AI智算交换机CloudEngine XH16800,借助其高密的800GE端口能力,两层交换网络即可实现2250节点(等效于18000张卡)超大规模无收敛集群组网。新集群同时使用了创新的超节点架构,大幅提升大模型训练能力。此外,华为凭借在计算、网络、存储、能源等领域的综合优势,全面提升系统可靠性,将大模型训练稳定性从天级提升到月级。
为了加速大模型创新,华为发布了更开放、更易用的CANN7.0,不仅全面兼容业界的AI框架、加速库和主流大模型,还深度开放底层能力,让AI框架和加速库可以更直接地调用和管理计算资源,使能开发者自定义高性能算子;华为还升级了Ascend C编程语言,以更高效的编程方式,简化算子实现逻辑,大幅缩短融合算子的开发周期,为AI模型与应用的快速开发赋能。
今年7月,华为云在2023华为开发者大会上首次披露了盘古大模型的进展,发布面向行业的盘古大模型 3.0。据悉,盘古大模型 3.0 包括“5+N+X”三层架构,三层分别指 L0 层的 5 个基础大模型、L1 层的 N 个行业通用大模型、以及 L2 层可以让用户自主训练的更多细化场景模型。其采用完全的分层解耦设计,企业用户可以基于自己的业务需要选择适合的大模型开发、升级或精调,从而适配千行百业多变的需求。
华为轮值董事长胡厚崑此前在WAIC大会上表示,华为发展大模型的核心是关注算力和应用。一方面是深耕算力,打造强有力的算力底座,来支撑中国的人工智能事业的发展。另一方面就是结合大模型,从通用大模型到行业大模型的研究创新,来真正让人工智能服务好千行百业,服务好科学研究。(校对/赵碧莹)