随着人工智能(AI)技术的兴起,大模型成为从信息化走向数智化的重要驱动力。虽然基于大算力支持和超大规模语言数据作为训练样本的大模型技术能够支持自动文摘、机器翻译等基础通用任务,但在医疗、金融等专业领域中,由于缺乏行业知识,无法满足定制化、精细化和行业化的需求。因此,需要基础大模型提供方与垂直行业的企业合作,共同开发行业大模型。例如,百度的“文心一言”大模型就与汽车、能源、医疗、金融等11个行业的企业合作创造了国内首个全面开放的大型语言模型。这样的合作主要发生存大型企业之间,对于中小型企业来说,直接应用这种基础大型模型仍然存在一定难度。
大模型的兴起对云计算的各个层面也产生了深远的影响。在基础设施即服务(IaaS)领域,推动了存算一体的算力架构的出现;在平台即服务(PaaS)领域,促进了AI PaaS的发展,支持了专业大模型的快速构建和部署;在模型即服务(MaaS)方面,提供了更灵活的模型定制,进一步推动了云端AI应用;而对软件即服务(SaaS)而言,大模型通过创新解决了定制化、成本和服务质量等问题,提高了它的实践价值。因此,若将大模型拆分成模块,利用“IaaS+PaaS+MaaS+SaaS”的组合构建全新的云智平台,将有利于中小型企业更容易地应用AI大模型。
AI的演进之路:从生成式AI到通用AI
人工智能正以前所未有的速度和规模发展,给人类社会带来巨大的变革。AI是指计算机系统通过模拟人类智能、推理、学习、理解和创造等能力,实现自主决策和执行任务的能力。AI概念自1956年首次提出,经过将近70年的演变与发展,在越来越多领域得到广泛应用。迄今为止,AI一共经历了两代发展。
第1代AI基于逻辑表示的“符号主义”,即知识驱动AI,旨在模仿人类的推理和思考能力,例如由IBM开发的“深蓝”计算机。知识驱动AI的推理过程完全基于人类的经验,由于缺乏数学基础,其推理仅限于数理逻辑等确定性推理,只能解决特定问题。
第2代AI基于神经网络的“连接主义”,即数据驱动AI,旨在利用统计方法将模型的输入数据转换为输出结果。数据驱动AI可以分为判别式、生成式以及养成式3种。判别式AI根据需求分辨内容与需求是否匹配,从已有的数据中判断出最符合要求的数据,主要适用于图像识别、推荐系统等,例如2016年的AlphaGo。养成式AI是DeepMind公司于2022年提出的,该AI模型具有类似于人类婴孩的思维能力,当简单物理规则被打破时会表现出惊讶,可以对集中视频训练不同的对象和事件进行概括,并且还可以通过在一个相对较小的动画上集中训练,不断成长。生成式AI技术是近年来人工智能领域的一个重要分支,可以通过对现有数据集的训练来生成全新的、完全原创的内容,主要适用于图像与自然语言生成。近年来,生成式AI技术获得了显著发展,2022年以ChatGPT为代表的生成式AI技术的火爆在全球引起了一股新的AI热潮。
由2018年的GPT-1发展到2023年的GPT-4,大模型的参数(可学习的权重和偏置变量)已从初始的1.17亿增长到了10000亿,训练数据也从5GB增长到了100 TB,如表1所示。GPT模型参数量的提升,使得训练结果越来越精确,其突飞猛进的增长速度是惊人的。在2年的时间里,AI模型规模增长了25倍,Transformer模型(一种深度学习模型框架)更是增长了275倍。虽然大模型可以在数据中心进行训练,但其高算力、高效率、低成本的特点将推动其上云。在大多数应用场景中,公有云的选用是一种合理的策略。
表1 GPT模型的各种数据
伴随着生成式AI的飞速进展,实现通用AI的曙光已然照人人们的视野。作为一个知识和数据双引擎驱动的模型,通用AI不仅满足单向任务的处理,还通过输入文本对大模型进行训练,他更需要汲取视觉、听觉、触觉等众多感知信息,进行多模态数据的融合,从而丰富其处理的复杂性和灵动性。在应对各项任务的过程中,通用AI寻求的是精准和高效,只需激活模型中与任务有关的部分即可,而非全盘启动,以此达成真正的通用AI的愿景。
大模型的构建与应用:自建与协作开发的行业大模型
2.1 自建基础大模型
构建基础大模型,如GPT系列,需要应对多项挑战,包括强大的计算力、充足的数据、高水平的人才、适用的应用场景以及完善的生态链。通常,这一任务由互联网大型企业或实力雄厚的研究机构来承担。在垂直行业中,由于各种因素的制约,自建基础大模型的实例相对较少,但中国的三大运营商却是少数几个拥有这类模型的企业。目前,中国已经拥有近200个大模型,然而,并非所有模型都具备执行任务所需的充足算力、数据和人才资源。
垂直类企业虽然很少拥有自建的基础大模型,但在某些对市场监管要求严格、对数据安全敏感的领域,核心企业通常不愿意使用外部大模型。对于头部金融机构而言,他们需要自行构建大模型以实现数据和模型的私有化,并存加密环境中使用私有数据进行模型的训练和应用。然而,创建金融大模型面临多重挑战。
首先,金融行业对数据安全性和隐私合规性的要求非常严格,同时风控对时效性和精准性的要求也很高,一般的基础大模型在透明性、可信性和专业性方面可能无法满足这些要求,直接迁移为金融大模型的难度较大;其次,金融大数据在平衡成本与质量时面临着数据难以共享的问题。导致数据规模无法与通用性语料匹敌,金融大模型难以产生“涌现”效果;最后,本地私有部署需要自建计算能力设施,对软硬件产品有着严峻的创新性要求,加上大模型参数规模较大,这可能会导致输入成本较高。
2.2 合作开发行业大模型
基础大模型通常通过通用语料库进行训练,具备强大的通识能力,可用于聊天对话等多种应用场景。然而,这类模型缺少特定行业的专业知识,因此需要大模型提供方与垂直行业合作开发行业大模型,目前存在两种主要的开发模式。
1)中心化模式。在这种模式下,垂直类企业将其数据提供给大模型提供方进行再训练,并对模型进行适应性优化,如图1所示。此后,进行知识蒸馏、量化以及对特定场景迁移等操作以缩小模型。但是在这一模式下,大部分工作由基础大模型的提供方完成,垂直类企业无法全面掌握模型的开发和优化工作。此外,后续的模型微调和云边端部署等工作仍需模型提供方提供支撑,可能存在数据在流转过程中泄漏的风险。
图1 中心化模式
2)非中心化模式。在这一模式下,大模型提供方会将训练后的模型提供给垂直行业的企业,如图2所示。企业可以在此基础上根据具体的业务场景和专有数据对模型进行微调,采用自我微调、有监督微调、指令调整等方式形成行业大模型或多个业务小模型。这种方式虽然避免了数据泄露的风险,但对企业自身的技术能力有较高的要求。同时,预训练由基础大模型提供方完成,而微调由企业完成,两者之问提供的数据可能存在矛盾。
图2 非中心化模式
为解决这一问题,可采用混迭方式进行预训练与指令微调,并且在预训练阶段引入部分行业数据,在微调阶段引入部分通用数据。例如,度小满金融的轩辕模型就是采用这种方式训练的,他们将预训练数据和指令数据随机混合到一个训练数据中进行混合微调,通过多阶段逐渐训练,缓解预训练和微调问数据不匹配的问题,提高模型的表达、理解、迁移和泛化能力。
对MaaS及其工具链的探索
合作开发行业大模型涉及到多个领域,如数字孪生/工业设计、药物仿真、电网建模、视频生成、动漫渲染等。通常需要这些行业作为算力网业务消费者连接到IPv6网络,以实现云、网、边的协同。IPv6作为统一承载协议,在打通云、网、边之间发挥着重要作用。
互联网数据中心(IDC)作为算力网的业务提供者,通过提供计算能力成为IaaS的主要组成部分,即算力平台。与此同时,算法主要分布在PaaS和SaaS层上,而大模型为这两个层级提供了重要支撑。垂直类企业可以与大模型提供商合作,共同构建行业大模型。然而,对于中小型企业来说,参与这一过程仍然是一项挑战。因此,MaaS应运而生,它将大模型缩简为可以插入中小型企业本地设备或公有云的PaaS和SaaS之间的模块。通过MaaS,中小型企业可以根据自身数据对模型进行精细化调整,形成适用于企业的专有模型。
结合IaaS、PaaS、MaaS和SaaS,可以构建一种全新的云智平台,该平台通过MaaS将大模型整合进云平台,如图3所示。MaaS由大模型平台(例如基础大模型、行业大模型和第三方模型以及支持MaaS的工具链组成,向企业提供在大模型上再开发和应用所需的各项能力。MaaS工具链可以提供数据管理、模型训练、评估优化、预测服务部署、提示工程以及插件应用等功能。尽管基础大模型在一般场景(如聊天对话)下表现良好,但存工业应用中,对确定性的敏感需求可能会暴露出其本身可信性的不足。因此,工业大模型需通过工具链引入有监督学习思维链,使推理步骤可解析,并通过变换场景来增加迁移学习能力。此外,引入反事实数据测试可以提高模型泛化能力。
图3 云智平台
目前,国内已涌现出一些提供MaaS工具链的平台,例如百度的“文心千帆”大模型服务平台、华为的盘古工程、腾讯的混元大模型精调工具链以及阿里云的MaaS平台(灵积平台)。这些平台提供了各种控制和导向大模型方向的工具,帮助企业更好地发挥大模型的应用价值。
大模型推动云服务创新
大模型的崛起对云计算各个层面产生了深远的影响,在IaaS中推动了存算一体的算力架构;在PaaS领域促进了AI PaaS的发展,支持了专业大模型的快速构建和部署;为MaaS提供了更灵活的模型定制,进一步推动了云端AI应用;对SaaS而言,大模型通过创新解决了定制化、成本和服务质量等问题,提升了实操价值。这一系列变革构建了更智能、高效的云计算生态。
4.1 大模型时代对算力网络的要求
在大模型时代,对算力网络的要求将更加严格。
1)感知。算力网络需要感知各种应用需求,为不同的应用提供差异化的服务水平(SLA)保障。此外,对于关键应用,需要实时检测性能,以确保用户体验达到最佳水平。
2)实时。算力网络需要支持对热数据的即时计算,使网络时延低于10 ms。具备低延迟和确定性的网络连接有助于缩短服务器问的梯度同步数据的传输时间,从而降低计算资源的消耗。
3)无损。消除网络数据包丢失,以减少由于服务器集群内计算协同等待而产生的开销。根据实验统计,0.1%的丢包会引起算力损失50%,因此无损传输是至关重要的。
4)弹性。提高海量小文件的加载速度,并提高AI大模型图形处理器(GPU)的利用率。理想的网络应当具备合理的存算比,并能够迅速适应对弹性吞吐量的需求。
5)按需。集成身份/目录服务、防火墙、零信任网络访问等安全服务,提供可见性和流量管理功能,并支持网络即服务(NaaS)。
6)智简。针对大模型训练成本,优化资源配置,为客户提供最优的算力接入和使用环境。
7)安全。确保数据能安全传输到算力节点并安全返回结果。需要提供算力租户问的安全隔离,有效防御外部攻击和数据泄露,实现终端的安全接入。
8)低碳。通过优化调度策略、合理利用资源、使用绿色能源等手段,降低能耗,实现低碳计算的目标。
4.2 大模型推动IaaS创新发展
大模型的兴起推动了IaaS的创新发展。IaaS提供包括服务器、虚拟机、存储、网络和操作系统等基础设施服务,具有弹性伸缩、自助服务、按需付费等特点,适用于灵活可扩展基础设施资源的开发测试、高性能计算和容灾备份等场景。受到大模型对算力的高需求影响,企业更趋向于从自建数据中心向公有云迁移,从而进一步促进了IaaS的发展。尽管MaaS的m现暂时可能使人们忽视了IaaS的重要性,但实际上,MaaS在很大程度上仍然依赖于IaaS的支持。
IaaS主要有两种模式:常规的存算分离模式和存内计算模式,如图4所示。
图4 IaaS的两种模式
在大模型训练中,对带宽的高需求通常会导致数据传输时延和响应速度成为限制因素。无论是从外部储存器向芯片搬运数据,还是芯片内部的数据总线传输,其物理限速的提升每年仅约为10%,远低于芯片算力基于摩尔定律60%~70%的年均增速。这种“存储墙”现象削弱了算力的利用率。
因此,发展存算一体的算力架构成为了一种解决问题的方式,能够减少数据搬运带来的时延。以阿里智算IaaS服务为例,其单集群可支持最大十万卡GPU,智算集群可同时承载多个万亿参数的大模型进行在线训练,并通过自研的远程直接数据存取(RDMA)网络架构为万卡规模的AI集群提供无拥塞通信,使AI训练效率提升10倍,推理效率提升6倍。
4.3 大模型催生AI PaaS创新发展
大模型的兴起推动了PaaS向AI PaaS的创新发展。PaaS提供了应用程序开发和部署的平台,包括操作系统、开发工具、数据库、中问件和运行时环境等,具备自动化扩展、多租户支持等特点,适用于简化开发过程、快速部署和扩展的场景,如Web应用开发和移动应用开发等。
大模型在性价比、可靠性、易用性等方面都面临着落地的挑战,开发人员迫切希望PaaS能够增加对大模型的支持,以便快速构建专业大模型、测试和部署相关应用。为此,AI PaaS应运而生,它在PaaS的基础上集成了AI功能,以支持大模型的端到端并行训练优化、场景模型迁移和应用集成等需求。同时,AI PaaS也需要得到大模型的支撑。MaaS通过大模型可优选小程序及配套的低代码开发和模型编排等工具,定制化补充或增强PaaS工具软件的平台能力。
举例来说,阿里低代码平台(aPaaS)允许开发人员创建大规模应用程序,后续还进一步推出了酷应用(bPaaS)、连接平台(iPaaS)、数据平台(dPaaS),提供各类模型调度平台、模型训练平台、插件开发平台等服务,不断细分深化服务层次,支持企业开启各种数字化的AI场景。此外,百度整合自研飞桨深度学习框架和百度文心大模型,打通了样本中心、模型中心、AI开发平台和AI服务运行平台,实现了从数据存储到模型训练、生产、部署、测试的全链路、批量化生产。
4.4 大模型重新定义SaaS
大模型为SaaS带来了全新的定义。SaaS作为一种将软件应用程序作为服务提供的模式,广泛涵盖了企业资源规划(ERP)、客户关系管理(CRM)、协作工具和电子邮件等领域,具备即插即用、按需定制、资源共享等特点,适用于降低部署和维护成本、快速获取软件功能的场景,例如办公协作、客户关系管理和人力资源管理等。
然而,B端应用(面向企业用户的互联网产品)在模型专业深度、迭代效率、数据安全以及高算力成本等方面存在一系列问题。企业个性化需求的增加使得SaaS长期面临着定制化要求高、使用频率低、获客成本高、异常消耗后期服务等挑战。在这一背景下,大模型的出现有助于SaaS突破这些困境。只需对大模型进行微调或精调,就能生成面向特定场景的算法。这种“工厂模式”有助于避免过去“手工作坊定制算法”的高成本,解决了传统SaaS在满足客户定制化需求、标准化产品和规模化盈利问的难题。
大模型使自然语言成为使用APP的界面,客户通过人机交互便能调用满足业务需要的功能,显著降低调用APP的门槛,节约学习成本。大模型形成的数字内容孪生、编辑、创作i大能力及衍生的文本生成功能正好适应SaaS办公场景。尽管大模型的训练成本较高,但其部署范同广,入门门槛低,且边际效应呈递增状态。再加上公有云的规模化效应,可以在云上低成本获取大模型,带有天然的成本及可操作性优势。因此,两者的结合可以极大地优化SaaS的交付方式,提升其实操价值。
大模型赋能企业数字化转型
大模型常会与大宽带、大连接、大平台联合应用,如图5所示。在离散制造现场,5G客户端终端设备(CPE)通过WiFi连接可编程逻辑控制器(PLC),再连接产线装备以收集相关数据。在流程制造现场,由于存在大量的危险品,传感器、工业模块等设备不能采用交流供电,因此PLC控制器被替换为使用先进物理层的控制器(APL)。APL通过单线式以太网实现远距离直流供电。
图5 大模型与5G的联合应用
数据通过5G信号从CPE传输到基站,然后再下沉到企业。大企业可以在其内部构建企业云,而中小型企业则可以通过5G连接到公网,再利用互联网访问人工智能平台。5G的核心网具有控制面和用户面分离的特征。用户面功能(UPF)可以下沉到企业,在5G公网上建立虚拟的5G专网。企业级UPF可以进一步下沉到网络边缘,通过IPv6的多归属特性实现数据的本地分流,保障敏感数据不外泄,满足超低时延和超高带宽的需求。
通过修改5G核心网的用户数据库(UDM),可以设定特定的一组终端,形成5G LAN,提供本地L2包(数据链路层的包,即第2层的包)转发能力,以实现对WiFi更好的覆盖和业务隔离。因此,企业仅需配备5G CPE,通过UPF下沉和IPv6上云(公有云、企业云、混合云或多云),就可以无需自建T业互联网平台及企业大脑,实现大数据分析与AI决策能力,有助于推动数字化转型。
从云网协同走向算网融合
当前正处于网络云化的不断推进阶段,而向着云网协同和算网融合的目标迈进仍需经历一段漫长而持续的发展历程。这一过程不仅为数字化转型提供更为强大和高效的基础设施支持,也为未来智能互联时代的到来奠定了坚实基础。
网络云化的核心技术包括软件定义网络(SDN)和网络功能虚拟化(NFV)。SDN用于实现承载网的控制和转发功能的分离,而NFV主要将网络设备的软硬件解耦,实现设备如UPF、基站、内容分发网络(CDN)、CPE、PLC等的云化陀。此外,对IPv6的编程空问进行开发并拓展其功能也是必要的。
云网协同的实现主要是在数据中心引入SDN技术,并利用IPv6对软件定义广域网络(SD—WAN)进行赋能。通过这样的方式,可以实现数据中心问以及数据中心与用户问多云互联或云边互联。采用基于IPv6转发平面的段路由(SRv6)和业务链技术(SFC)可以优化流量路径。云网协同的实现面临着诸多挑战,如协议不一致、数据共享程度低、缺乏云网整体视图、算力与路由分配脱节等。
算网协同将集中式的算力资源与分布式的边计算相结合,使得SRv6能够充分发挥其作为云网边端统一承载协议的作用,是云计算的重要应用之一。
算网融合的实现需要采用算力度量、算力标识、算力感知、算力路由等技术。基于IPv6的算力资源和网络资源的统一管理,包括统一标识、统一调度、智能编排、统一运营等,是实现算力和网络深度融合的关键。
目前正处在网络云化、云网协同、算网融合的技术发展过程中,这一过程并非一帆风顺,尤其在云网协同方面。据统计,0.1%的丢包率可能导致算力损失高达50%,突显了网络性能对算力效率的重要性。网络基于IPv6的能力与大模型的相互作用,将更好地推动朝着云网协同和算网融合的目标迈进。
AI加速数智化发展
目前正处于第3次工业革命的浪潮之中,前两次工业革命历经百年,因此我们有理由相信这一波工业革命将贯穿本世纪,工业革命进程如图6所示。尽管有观点认为信息化已经演进了很长一段时问,发展势头会有所减缓,但当前芯粒和SIP技术为延续摩尔定律提供了新的动力。大算力的崛起突破了算法演进的瓶颈,人工智能凭借其强大的赋能能力驱动着新一代IT创新,而大模型技术则迅速推动着技术革命的进程。
图6 工业革命进程
当下,数字经济的新时期已经到来,经济生产要素从农业时代的土地和劳力、工业时代的技术与资本,转变为信息化时代的新生产要素一数据。当前,国际经济正在经历调整,信息化正逐渐演化为数智化,同时网络技术创新也在迅速发展。
互联网进入了IPv6+主导期,光纤通信迈人了F5G的成长期,移动通信启动了5G-A的新周期,工业互联网进入攻坚期,AI迈向通用式AI的过渡期,而云网融合、算网协同正经历着青春期。这一系列的变革推动着大宽带、大连接、大数据、大平俞、大模型、大智能的发展。