华为轮值董事长徐直军最新演讲:以开创的超节点互联技术,引领AI基础设施新范式

  • 小编
  • 2025-09-26

华为轮值董事长徐直军在华为全联接大会2025上的主题演讲,聚焦于“以开创的超节点互联技术,引领AI基础设施新范式”。他首先回顾了过去一年AI领域的发展,特别是DeepSeek的出现对产业界和华为带来的冲击与挑战,以及华为云和昇腾团队为应对这些挑战所做的努力。 演讲中,徐直军重申了去年华为全联接大会提出的五点:算力可持续性、中国半导体制造工艺的现状、基于实际可获得芯片制造工艺的算力、AI作为主导性算力需求带来的计算系统结构性变化,以及“超节点+集群”算力解决方案的重要性。他特别强调,此次演讲旨在详细阐述第五点,即如何通过超节点互联技术构建AI基础设施新范式。 徐直军还汇报了华为在昇腾产业峰会上做出的四项重要决定:坚持昇腾硬件变现;CANN编译器和虚拟指令集接口开放,其他软件全开源;Mind系列应用使能套件及工具链全面开源;openPangu基础大模型全面开源。这些举措旨在推动昇腾生态的开放与发展。 他进一步介绍了昇腾芯片的未来路标,明确表示昇腾芯片将持续演进,为全球AI算力奠定基础。未来三年(至2028年),华为将推出Ascend 950系列(包括950PR和950DT)、Ascend 960和Ascend 970系列芯片。Ascend 950系列在FP8/MXFP8/MXFP4等低数值精度数据格式、向量算力、互联带宽等方面实现显著提升,并结合自研HBM(HiBL 1.0和HiZQ 2.0)针对Prefill、推荐、Decode和训练场景进行优化。Ascend 960和970则计划在算力、带宽、内存容量等方面实现翻倍或大幅升级,以每年一代、算力翻倍的速度持续提升竞争力,满足AI算力需求。 演讲全文如下:


8e5e-354f78202875fb5bf7684c938ec1ede2.png


以开创的超节点互联技术   引领AI基础设施新范式


——徐直军在华为全联接大会2025上的主题演讲


女士们、先生们,各位老朋友、新朋友,大家上午好! 欢迎来参加2025年华为全联接大会,时隔一年,很高兴再次与大家相聚在上海。我想大家都能感受到,过去的一年对所有AI从业者、关注者来讲是记忆深刻的一年,DeepSeek横空出世,让全国人民过了一个快乐的AI春节、科技春节,也让所有大模型训练者开启了不知多少个不眠之夜,调整训练方式,复现DeepSeek结果。当然也给我们带来了巨大冲击,华为云为了接住DeepSeek快速增长的用户和流量,日夜奋战,AI研发团队从春节开始,到今年4月30日,经过多团队的协同作战,终于使Ascend 910B/910C的推理能力达成了客户的基本需求。 在进入今天的具体分享之前,请允许我回顾一下去年的HC,我讲到了如下几点: 第一、智能化的可持续,首先是算力的可持续; 第二、中国半导体制造工艺将在相当长时间处于落后状态; 第三、可持续的算力只能基于实际可获得的芯片制造工艺; 第四、人工智能成为主导性算力需求,促使计算系统正在发生结构性变化; 第五、开创计算架构,打造“超节点+集群”算力解决方案持续满足算力需求。 但第五点没有展开讲,今天,我想利用此机会,来把我去年HC没有完成的任务完成,也算是答卷。我今天分享的主题是:“以开创的超节点互联技术,引领AI基础设施新范式”,也是回答去年HC提到的第五点:如何开创计算架构,打造 “超节点+集群”算力解决方案来持续满足算力需求。 在展开今天主题前,回到DeepSeek对产业界、对华为的冲击,DeepSeek开源后,我们的客户对华为的昇腾发展指出了很多问题,也充满了期待,并一直在给我们不断地提建议。为此,经过内部的充分讨论并达成共识,我们于2025年8月5日在北京专门举办了昇腾产业峰会,我代表华为给出了回应,在座的有的参加了,有的可能没有参加。今天,我也利用此机会就主要的决定给大家汇报一下。主要有四点: 一、华为坚持昇腾硬件变现; 二、CANN 编译器和虚拟指令集接口开放,其它软件全开源,CANN基于Ascend 910B/C的开源开放将于2025年12月31日前完成,未来开源开放与产品上市同步; 三、Mind系列应用使能套件及工具链全面开源,并于2025年12月31日前完成; 四、openPangu基础大模型全面开源。 接下来回到今天的主题。尽管DeepSeek开创的模式可以大幅减少算力需求,但要走向AGI、要走向物理AI,我们认为,算力,过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键。 算力的基础是芯片,昇腾芯片是华为AI算力战略的基础。自2018年发布Ascend 310芯片,2019年发布Ascend 910芯片,到2025年,Ascend 910C芯片随着Atlas 900超节点规模部署,为大家所熟悉。在过去几年,客户和伙伴们对昇腾芯片有很多诉求,对昇腾芯片也有很多期待。面向未来,华为的芯片路标是如何规划的?想必是大家普遍关心的话题,可能也是最关心的内容。 因此,今天,我就直入主题来介绍昇腾芯片及其路标。我很确定地告诉大家,昇腾芯片将持续演进,为中国乃至世界的AI算力构筑坚固根基。 未来3年,至2028年,我们在开发和规划了三个系列,分别是Ascend 950系列,包括两颗芯片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具体芯片还在规划中。下面我分别介绍快要推出的和已规划的4颗昇腾芯片。 我们正在开发、且即将推出的芯片叫Ascend 950系列。我首先介绍一下Ascend 950系列的芯片架构,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。与前一代昇腾芯片相比,Ascend 950 在以下几个方面实现了根本性提升。 第一,新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式,算力分别达到1P和2P,提升训练效率和推理吞吐。并特别支持华为自研的HiF8,在保持FP8的高效的同时,精度非常接近FP16。 第二,大幅度提升了向量算力。这主要通过三个方面实现:其一,提升向量算力占比;其二,采用创新的新同构设计,即支持 SIMD/SIMT 双编程模型,SIMD能够像流水线一样处理“大块”向量,而SIMT便于灵活处理“碎片化”数据;其三,把内存访问颗粒度从512字节减少到128字节,内存访问更精细,从而更好地支持了离散且不连续的内存访问。 第三,互联带宽相比Ascend 910C提升了2.5倍,达到2TB/s。 第四,结合推理不同阶段对于算力、内存、访存带宽及推荐、训练的需求不同,我们自研了两种HBM,分别是:HiBL 1.0和HiZQ 2.0。不同的自研HBM与Ascend 950 Die合封,分别构成芯片Ascend 950PR:面向Prefill和推荐场景,以及Ascend 950DT:面向Decode和训练场景。下面分别介绍。 首先是我们的第一颗芯片,Ascend 950PR,主要面向推理Prefill阶段和推荐业务场景。首先,我们发现,随着Agent的快速发展,输入上下文越来越长,首Token输出阶段占用计算资源越来越多。其次是在电子商务、内容平台、社交媒体等业务应用中,要求推荐算法具有更高的准确度和更低的时延,对计算能力的需求也越来越大。推理Prefill阶段和推荐算法都是计算密集型,对计算并行的能力要求高,但对内存访问带宽的需求相对低。通过分级内存解决方案,推理Prefill阶段和推荐算法对本地内存容量的需求相对也不高。Ascend 950PR 采用了华为自研的低成本HBM,HiBL 1.0,相比高性能、高价格的HBM3e/4e,能够大大降低推理Prefill阶段和推荐业务的投资。 这颗芯片将在2026年一季度推出,首先支持的产品形态是标卡和超节点服务器。 接下来这一颗是Ascend 950DT,相比Ascend 950PR,它更注重推理Decode阶段和训练场景。由于推理Decode阶段和训练对互联带宽和访存带宽要求高,我们开发了HiZQ 2.0,使内存容量达到144GB,内存访问带宽达到4TB/s。同时把互联带宽提升到了2TB/s。其次,支持了FP8/MXFP8/MXFP4/HiF8数据格式。 Ascend 950DT 将在2026年Q4推出。 第三颗是在规划中的芯片Ascend 960。它在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比Ascend 950翻倍,大幅度提升训练、推理等场景的性能;同时还支持华为自研的HiF4数据格式。它是目前业界最优的4bit精度实现,能进一步提升推理吞吐,并且比业界FP4方案的推理精度更优。 Ascend 960将在2027年四季度推出。 最后一颗是在规划中的Ascend 970,这颗芯片的一些规格还在讨论中。总体方向是,在各项指标上大幅度升级,全面升级训练和推理性能。目前的初步考虑是,相比Ascend 960,Ascend 970的FP4算力、FP8算力、互联带宽要全面翻倍,内存访问带宽至少增加1.5倍。Ascend 970计划在2028年四季度推出。大家届时可以期待它的惊人表现。 这是刚才介绍的昇腾芯片的主要具体规格和路标,总体上,我们将以几乎一年一代算力翻倍的速度,同时围绕更易用,更多数据格式、更高带宽等方向持续演进,持续提升昇腾芯片的竞争力,持续满足中国乃至世界AI算力需求。