自ChatGPT横空出世以来,人工智能大模型的热度持续攀升。有观点认为,人工智能将引领第四次工业革命。然而,这一预言背后隐藏着一个问题:算力成本的高企。举例来说,GPT-3.5训练一次大模型的成本高达1200万美元,约合8700万人民币,而ChatGPT 4.0的算力需求则激增了68倍。面对这一“烧钱”游戏,我们该如何应对?
数据中心和智算中心形象图
国内智算成本高企的背后
首先,让我们来探究一下智算的“胃口”。智算的过程主要分为两步:推理与训练。推理过程就像是让AI模型进行“深思熟虑”,而训练过程则是让它们“勤学苦练”。这两个阶段都对计算资源和电力有着巨大的需求。
硬件设备价格昂贵:智算离不开高性能计算机(HPC)和GPU等硬件设备。这些高端设备价格高昂,而且许多关键设备还依赖进口,这无疑进一步推高了成本。以H100为例,据美国金融机构Raymond James称,H100的成本约为3320美元,但英伟达对客户的批发销售价格介于25000美元至30000美元之间,而同时受到美国政策限制,成为稀有资源。
电力成本高企:智算对计算资源的需求巨大,而这些资源的运行和冷却都需要消耗大量的电力。在国内,电力价格不菲,尤其是在一些大都市,电费无疑成了智算成本中的“大户”。北上广深等核心城市工业用电价一直保持高位,用电紧张。
人才和数据成本不可小觑:智算领域需要大批高素质人才,包括数据科学家、算法工程师和系统架构师等,随着智算需求的增长,这些人才的薪资也水涨船高。而数据作为智算的“燃油”,获取和处理高质量的数据同样需要投入大量资源。数据的采集、清洗、存储和传输等环节,都会产生可观的成本。
据了解,目前,国内企业在智算方面投入巨大,以1P算力的成本来看,硬件设备的采购成本大约为5000万元,电力和维护成本每年约1000万元,再加上人才和数据成本,整体支出堪称“天文数字”。
尽管如此,智算的需求仍在不断增长,特别是在金融、医疗、制造和交通等领域。为了保持竞争力,企业不得不持续增加智算的投入,形成了一个“成本高-需求高-投入高”的恶性循环。那么,企业该如何打破这个循环,有效降低智算成本呢?
破解之道
制冷、供配电节能技术的应用:液冷技术通过使用液体冷却系统,可以有效降低数据中心的温度,提高能效,减少能耗。这有助于降低电力成本;模块化的电力系统可以更灵活地满足不同负载需求,减少能源浪费,从而降低成本。例如,阿里浸没式液冷的应用,使PUE值降到1.09,液冷技术可以显著降低数据中心的能源消耗,实现绿色智算中心的目标。
东数西算,优化资源配置:电力成本低廉的西部地区利用“东数西算”战略,将数据计算任务从东部转移到资源丰富、电力成本低廉的西部地区。这有助于降低整体智算成本。同时,8大国家算力枢纽节点的20毫秒(ms)时延圈已覆盖国内主要城市,5ms时延圈已实现枢纽周边省市覆盖,这使得数据传输速度更快、可靠性更高。例如,贵州的智算中心已成为许多企业的首选地,通过将计算任务转移到此地,企业可以显著降低电力成本。
网络技术的进步:智算中心内部网络连接技术的不断改进可以提高数据传输速度、可靠性和安全性。例如,腾讯云通过自研星脉网络3.2T通信带宽和统一的接入层能力,打造了一个可以支持超过10万张卡并行计算,并且能够兼容多种GPU生态的算力集群,这有助于优化智算中心内部的通信,提高整体智算效率。
云计算,降低基础设施成本:云计算是降低智算成本的有效途径。企业可以通过使用云计算平台,减少自建数据中心的成本。云计算平台提供按需付费模式,企业可以根据实际需求灵活调整算力资源,避免资源浪费。例如,腾讯云和阿里云等国内领先的云计算服务商,已经为众多企业提供了高效、低成本的智算解决方案。
智算成本的高企无疑是国内智算行业面临的一大挑战。但是,通过采用节能技术、实施“东数西算”战略、提升网络技术和使用云计算等措施,我们有望有效破解这一难题,降低智算成本。随着技术的不断进步和政策的支持,国内智算行业必将迎来更加广阔的发展前景。
为进一步推动智算产业的生态构建与合作,中国IDC圈将于2024年6月18日在深圳举办“中国智算生态发展大会”,大会将邀请院士专家、政府主管部门、大模型企业、智能算力供应商、云厂商、电信运营商以及芯片企业、服务器企业的专业人士参与,共促产业链上下游交流与共赢。大会官网地址:http://www.idcquan.com/Special/2024CICEDC/
中国智算生态发展大会