当前位置:首页 >文章发布 > 正文
蚂蚁集团NextEvo全面开源AI Infra技术,可实现大模型训练“自动驾驶”
来源:钛媒体 作者:
佚名
2024-02-01 13:56:51
近日,蚂蚁集团AI创新研发部门NextEvo全面开源AI Infra技术,可帮助大模型千卡训练有效时间占比超过95%,能实现训练时“自动驾驶”,这推动了AI研发效率。
近日,蚂蚁集团AI创新研发部门NextEvo全面开源AI Infra技术,可帮助大模型千卡训练有效时间占比超过95%,能实现训练时“自动驾驶”,这推动了AI研发效率。该技术框架名为DLRover,目标在于大规模分布式训练的智能化。据了解,最新集成进DLRover的是Flash Checkpoint(FCP)方案。模型训练时,一般要打Checkpoint(检查点),以便中断时能恢复到最近状态,常规做法耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等缺点。新方案FCP应用在千卡千亿参数模型训练后,Checkpoint 导致的训练浪费时间降低约5倍,其中持久化时间降低约70倍,有效训练时间从90%提升至95%。
免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:刘婧