取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
中国电信基于 800GWDM 现网完成业界首例千卡分布式无损智算网验证
来源:IT之家  作者: 佚名 2024-09-03 09:44:45
9月3日消息,当前,随着智算卡数达到千卡、甚至万卡,所需带宽往往高达百T比特级、甚至超P比特级。因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。

9月3日消息,当前,随着智算卡数达到千卡、甚至万卡,所需带宽往往高达百T比特级、甚至超P比特级。因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。

中国电信集团宣布,中国电信研究院、中国电信北京公司、天翼云公司共同在中国电信现网基于800GC+L技术,为1024卡规模的分布式集群提供大容量带宽,实现120公里千亿参数大模型分布式训练,性能达到集中训练的95%以上。

据介绍,针对数据传输的大带宽问题,中国电信采用高阶调制格式的单波长800G技术以提高频谱效率,配合当前的业界热点的C+L波段技术实现超大传输带宽,在中国电信武清与润泽机房之间采用华为公司传输设备,通过多次环回构建了大带宽互联的智算验证网,距离达到120km。

针对数据传输的高可靠问题,中国电信完成了链路误码、波长故障、光纤故障等异常测试试验,结果表明,一个800G业务波中断会导致超40%的算效降低,而百毫秒级以上光纤故障会导致算效大幅下降甚至训练中断。从官方获悉,采用WSON重路由恢复技术,此次在两点间将重路由恢复时间控制在50ms以内,可保证分布式智算业务的高可靠互联,最大程度释放算效。

针对传输链路的高效率问题,中国电信提出分钟级波长动态拆建解决方案来实现算与网的协同分时复用,有效提升网络资源利用率。此次验证为跨地域、跨层级、跨主体高可靠的算力协同调度奠定基础。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:乔帅臣
关键词:   大模型  智算卡  中国电信 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。