首页 > 教育综合知识 > 教育综合知识 > 华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复

华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复

发布时间:2025-06-11 12:54:54来源: 15510183920
 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。
 
  但是,在华为,昇腾万卡算力集群,已经可以做到近乎“永不罢工”了:
 
 
  或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗?
 
  答案是肯定的,需要,且有必要。
 
  因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成百上千的CT照片。
 
  这些看似简单的智能应用,其实都离不开如 “超级大脑” 般的AI算力集群,需要它们全天候不停歇地运转着。
 
  而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。
 
  更严格来说,AI推理的可用度甚至还需要达到99.95%的程度。
 
  那么华为又是如何做到这点的?
 
  关于这一切背后的秘密,华为在今天首次把技术给公开了出来。
 
  AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。
 
  要解决问题,首先得确定故障出在哪个大的领域,接着再在这个领域内部一步步排查,确定具体的故障位置。在整个故障诊断过程中,面临的挑战非常大。
 
  以往技术人员进行故障定位时,短则需数小时,长则可能耗时数天。这一过程不仅对技术人员的专业技能要求颇高,且往往难以快速锁定故障设备及根本原因。
 
  为此,华为团队针对AI大集群面临的复杂挑战,构建了三大基础能力。
 
  首先是全栈可观测能力。
 
  它像是给集群装了一套“火眼金睛”监控系统(故障感知),主要包含这几部分:
 

教育综合知识更多>>

消息称英伟达、三星联手投资 AI 机器人公司 Skild AI,估值达 45 亿美元 三星S25系列获One UI 8 Beta 2更新 新增多项功能 华硕 ROG Strix G16 新款笔记本曝光,配未发布的英伟达 RTX 5050 GPU 联想拯救者Y7000 2024款游戏本超值优惠价 以“零碳”引领全球能源产业转型!TCL中环新一代BC组件亮相 神牛V350s索尼版闪光灯限时特惠579元 任天堂 Switch 2 性能被指更接近微软 Xbox Series S,而非索尼 PS4 索尼Alpha 7 IV全画幅微单相机限时特惠 上市首日暴涨274%!影石创新掀资本狂欢背后:运动相机行业进入“中国品牌主导”时代 滑雪全景运动相机X5X4:8K高清防抖雪地神器 红米K80 Pro 5G手机16GB+512GB雪岩白仅1887元 闪魔小米15透明保护套限时优惠 小米汽车出台供应商支付账期新规,响应国家政策保障汽车产业链稳定发展 小米宣布米家空调 Pro 系列 OTA 陆续推送:全面优化压缩机控制算法,温控更精准、更省电 小米滚筒洗衣机脱水振动精准感知及动态调控关键技术获评国际领先 iQOO Z10x 8+128G手机,原价1199现703.03 首款熄屏就能用“支付宝碰一下”的手机:华为 Pura 80 系列支持熄屏一碰快付 OPPO Find X9或全系放弃曲面屏:首批搭载天玑9500处理器 OPPO小布助手月活超1.5亿 一加杯和平精英高校总决赛收官 谁敢说鸿蒙电脑没微信? Xbox与华硕合作推出Windows 11掌机 联想刘军:让AI成为创新生产力,隐私保护和数据安全不可妥协 安卓第一个:vivo X Fold5 折叠屏手机打通 iCloud 云端直连 大折叠也有顶级影像!vivo X Fold5长焦样张首秀:望远、微距不输直板旗舰 荣耀面向全球高校招募1000名优秀毕业生 欧炫荣耀Magic6钢化膜天猫立减5元 美团闪购上线“618”手机数码“追加补贴” 省会城市验资千万,看房没收手机,现在有钱人这么多了? 摩托罗拉moto razr60折叠手机天猫补贴价2999元 唯永立红米手机钢化膜天猫超值优惠