7月28日消息,Meta发布的一份研究报告显示,其用于训练4050亿参数模型Llama3的16384个英伟达H100显卡集群在54天内出现了419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。
Meta训练Llama3遭遇频繁故障:16384块H100GPU训练集群每3小时“罢工”一次
由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。尽管如此,Meta团队还是保持了90%以上的有效训练时间。
在为期54天的预训练中,共出现了466次工作中断,其中47次是计划中断,419次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。GPU问题是导致故障的主要原因,占意外中断的58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。
Meta训练Llama3遭遇频繁故障:16384块H100GPU训练集群每3小时“罢工”一次
在419个意外中断中,148个(30.1%)是由各种GPU故障(包括NVLink故障)引起的,而72个(17.2%)是由GPU的HBM3内存故障引起的。有趣的是,54天内只有两个CPU发生故障。41.3%的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。
为提高效率,Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta还关注到了环境因素的影响,如午间温度波动对GPU性能的轻微影响,以及巨量GPU同时运行对数据中心电网的巨大压力。
然而,随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。以xAI计划中的10万块H100显卡集群为例,故障率可能会成倍增长,给未来的AI训练带来更大的挑战。