每个月都有数百万人在Meta的平台上使用人工智能,包括Facebook。该公司正在升级其数据中心设备,以应对人工智能所需的日益增长的计算负载。
Meta基础设施副总裁Alexis Black Bjorlin在美国加州圣克拉拉举行的AI硬件峰会的主题演讲中表示,AI是Meta跨平台向用户提供更多相关内容目标的关键部分。
“这给了我们更深刻的见解。这让我们能够更好地预测用户行为,从而更好地为我们近30亿活跃的每日用户提供有意义和相关的内容。”Black Bjorlin在周三的主题演讲中表示。
硬件升级也将推动人工智能应用到更多的应用和服务中。它还将帮助Meta实现其围绕元宇宙的业务战略的长期转向,这一战略正在顺利进行中。Black Bjorlin表示,每月有近7亿人通过Meta平台使用增强现实技术。
“特别是,人工智能可以在你看到之前检测并删除95%以上的不良内容。仅在第二季度,我们的AI系统就删除了近2.5亿条违反Facebook和Instagram平台安全政策的内容。”
到2025年,Meta计划建造包含超过4000个加速器的大型集群。核心网络将被组织成一个网状结构,加速器之间的带宽为每秒1TB。Black Bjorlin没有详细说明该公司计划使用的加速器类型,但该公司广泛使用英伟达的GPU,并计划基于英伟达的GPU开发人工智能超级计算机。
Meta在全球20个地区拥有数据中心,每个地区大约有5座数据中心大楼。该公司在全球拥有超过460万平米的数据中心。
一个典型的小规模AI培训集群的功率为8兆瓦,但Meta认为需要将总功率扩展到64兆瓦。电力预算的很大一部分将用于网络,因为人工智能通常需要超高速的网络带宽来在计算核心、内存和机器学习存储之间移动数据。
这需要从整体上理解系统,了解增加价值的是什么,并剔除不必要的组件,这个想法是在系统和芯片层面缩小硬件。Black Bjorlin举了光互连的例子,这是Meta公司正在研究用于数据中心的方法。
“这为我们提供了一种减少光学器件功耗的重要方法。它不仅仅是在更高层次的网络上的交换机对交换机。这实际上是光互连到加速器本身。”她赞扬了CXL联盟所做的工作,该联盟上个月发布了3.0版本的计算快速链接规范,该规范在芯片、内存和系统存储之间建立了通信链接。
Meta目前的数据中心基础设施每月处理36.5亿活跃用户的服务,以及29.1亿Facebook用户。除了在屏蔽不良内容方面有95%的准确率外,人工智能系统还可以翻译200种语言。该公司使用OPT-175B自然语言处理模型,该模型有1750亿个参数,对开发人员是开源的。
该公司正在围绕机器学习工具包PyTorch构建其AI基础设施,该工具包与TensorFlow一起成为AI的首选语言。GitHub上有超过15万个PyTorch项目,来自2400多位志愿者。
本周Meta将其PyTorch项目剥离给新成立的PyTorch基金会,该基金会将由Linux基金会管理。该基金会的成员还包括顶级云服务提供商亚马逊(AWS)、谷歌cloud和微软Azure。
Meta公司的AI新运营模式依赖于将模型投入生产的速度,在某些情况下,这比传统的系统指标(如每瓦性能)更重要。“我们正试图找到一种方法,以捕捉两个世界的最佳——保持开发人员的效率,并利用快速生产和实现高性能。理想情况下,我们应该有支持本地以太网的硬件。”