取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
Meta训练Llama3遭遇频繁故障:16384块H100GPU训练集群每3小时“罢工”一次
来源:财联社  作者: 佚名 2024-07-29 06:40:30
7月28日消息,Meta发布的一份研究报告显示,其用于训练4050亿参数模型Llama3的16384个英伟达H100显卡集群在54天内出现了419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

7月28日消息,Meta发布的一份研究报告显示,其用于训练4050亿参数模型Llama3的16384个英伟达H100显卡集群在54天内出现了419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

Meta训练Llama3遭遇频繁故障:16384块H100GPU训练集群每3小时“罢工”一次

由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。尽管如此,Meta团队还是保持了90%以上的有效训练时间。

在为期54天的预训练中,共出现了466次工作中断,其中47次是计划中断,419次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。GPU问题是导致故障的主要原因,占意外中断的58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。

Meta训练Llama3遭遇频繁故障:16384块H100GPU训练集群每3小时“罢工”一次

在419个意外中断中,148个(30.1%)是由各种GPU故障(包括NVLink故障)引起的,而72个(17.2%)是由GPU的HBM3内存故障引起的。有趣的是,54天内只有两个CPU发生故障。41.3%的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。

为提高效率,Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta还关注到了环境因素的影响,如午间温度波动对GPU性能的轻微影响,以及巨量GPU同时运行对数据中心电网的巨大压力。

然而,随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。以xAI计划中的10万块H100显卡集群为例,故障率可能会成倍增长,给未来的AI训练带来更大的挑战。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:乔帅臣
关键词:   智能模型  Meta  AI 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。