Meta训练Llama3遭遇频繁故障：16384块H100GPU训练集群每3小时“罢工”一次 - ENI文章

当前位置：首页 >文章发布 > 正文

Meta训练Llama3遭遇频繁故障：16384块H100GPU训练集群每3小时“罢工”一次

来源：财联社作者：佚名 2024-07-29 06:40:30

7月28日消息，Meta发布的一份研究报告显示，其用于训练4050亿参数模型Llama3的16384个英伟达H100显卡集群在54天内出现了419次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

Meta训练Llama3遭遇频繁故障：16384块H100GPU训练集群每3小时“罢工”一次

由于系统规模巨大且任务高度同步，单个显卡故障可能导致整个训练任务中断，需要重新开始。尽管如此，Meta团队还是保持了90%以上的有效训练时间。

在为期54天的预训练中，共出现了466次工作中断，其中47次是计划中断，419次是意外中断。计划内的中断是由于自动化维护造成的，而意外的中断则主要源于硬件问题。GPU问题是导致故障的主要原因，占意外中断的58.7%。其中只有三起事件需要大量人工干预，其余的由自动化管理。

Meta训练Llama3遭遇频繁故障：16384块H100GPU训练集群每3小时“罢工”一次

在419个意外中断中，148个(30.1%)是由各种GPU故障(包括NVLink故障)引起的，而72个(17.2%)是由GPU的HBM3内存故障引起的。有趣的是，54天内只有两个CPU发生故障。41.3%的意外中断是由多种因素造成的，包括软件错误、网络电缆和网络适配器。

为提高效率，Meta团队开发了一系列工具和优化策略，包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。此外，Meta还关注到了环境因素的影响，如午间温度波动对GPU性能的轻微影响，以及巨量GPU同时运行对数据中心电网的巨大压力。

然而，随着人工智能模型参数量的不断增加，所需的计算资源也随之扩大。以xAI计划中的10万块H100显卡集群为例，故障率可能会成倍增长，给未来的AI训练带来更大的挑战。

免责声明：本文系网络转载，版权归原作者所有。本文所用图片、文字如涉及作品版权问题，请联系删除！本文内容为原作者观点，并不代表本网站观点。

编辑：乔帅臣

关键词：智能模型 Meta AI

[已收藏] [关闭] [返回顶部]

e-show 一手

活动直播间 | CIO智行社

E-PRO

梅姐东莞永益食品电商总监

汉语言文学教育、计算机应用与开发双专业，21年工作经验，其中16年IT从业，12年电商从业，服务过美资、国企、民企三种企业，其中两家为上市...

唐龙原德勤信息安全专家

毕业于北京航空航天大学，软件硕士，曾就职于赛门铁克、中国惠普、IBM、中国平安、德勤等高级管理职位。专注在 IT 战略咨询、网络安全...