人类为大规模AI负荷做好准备了吗？

ChatGPT激发了全球对人工智能的丰富想象力。这个聊天机器人可以写文章、作曲、甚至还可以用不同的语言与人类交谈。如果人们读过任何ChatGPT的诗歌，就会发现，虽然它还没有通过图灵测试，但无论是与数月前、还是与专家对人工智能的预期相比，也都是一个巨大的飞跃。在刚刚发布的前5天里，ChatGPT的注册用户就超过了一百万人，这一数据打破了技术应用的历史记录。

这股风潮也强化了如下论点：即人工智能将对人类的生活方式产生巨大影响。一些人预测，到2030年，人工智能通过对制造业、零售业、医疗保健、金融系统、安全和其他日常流程进行精细优化调整，将对全球GDP做出重大贡献。

但这一突然的成功背后，也凸显了人工智能当前最紧迫的问题：即如今的计算基础设施并非为处理人工智能工作负荷而建造的。在过去5年里，人工智能网络的规模每年增长近10倍。到2027年，数据中心中有五分之一的以太网交换机端口将专门用于人工智能、机器学习和加速计算。

于是，大规模人工智能即便在技术和经济上并非不可能，但现实中也变得不切实际。即便是对环境来说，也是很可怕的。因为训练一个像GPT-3这样的模型，就用了1750亿个节点，耗能高达1287兆瓦时，这么大的能耗足以供大约120个美国家庭使用整整一年。如果将该模型性能提高10倍的话(未来肯定会达到)，其算力和能源需求还将增加1万倍。

为了摆脱这种螺旋式上升的资源需求，就需要从头开始重新思考计算架构。对于所有即将到来的变化，虽然不可能全部预测到，但我认为下面这些变化即将到来：

系统中的每个单元——CPU、GPU、DPU、内存、存储、网络等等，都必须能够按照自己的步调进行升级和改进，以使创新能够跟上算法需求和容量/吞吐量需求。这也意味着将消除它们之间的相互依赖。

内存就是一个明显的例子。在过去的几年里，内存已经成为扩展性能的瓶颈。虽然对更多带宽和容量的需求一直在不断增加，但现在几乎不可能再扩展主机的内存接口。

正在走向商业化的CXL技术，可以绕过传统的PCIe接口，而通过CXL连接将更多的内存连接到处理器。CXL还允许不同的处理器和设备共享外加的内存池。数据中心还能够从老的服务器上回收内存，用于创建CXL池，以优化其总体拥有成本。这样做最起码能够实现：更好的资源利用率、更高的峰值性能、以及更好的投资回报率。存储和网络已经在一定程度上被分解，但未来人们将会看到数据中心的完全模块化，不同的功能和/或组件将会分布在各个设备中，并具有动态变化的关系。

不过，上述分解产生了延迟、潜在的带宽瓶颈也遏制了性能。为了充分发挥分解的潜力，需要一种能够最大限度地减少这些缺点的传输媒介。

如上所述，功耗是一个真正的问题，功率密度也是如此。为了解决新出现的任务和用例，需要建立更大、更密集的人工智能平台。在许多情况下，以所需速率和馈电要求实现电连接时，需要组件彼此靠得很近，这将导致功率密度问题，进而限制了人们在集群中添加更多人工智能组件和进一步扩展的能力。

光是唯一能够有效解决这些问题的传输媒介。光已经将机架连接在一起。在下一阶段，光将被用来连接机架内的设备，甚至用于系统节点内部。诸如人们熟悉的CXL等协议，也都将转移到光域。

有一个例子可以说明人工智能平台的规模。比如一个目前速度为25Tbps的以太网交换机。为了简单起见，先不考虑冗余、根和拓扑架构，这个交换机可以容纳大约500台服务器，相互间用典型的50Gbit/s的速率连接。然而，该交换机可以容纳多少个采用以3.6Tb/s(实际发布的总速率为900GB/s)速率连接集群中对等GPU的高端GPU呢？答案是仅为七个！

因此，对更高带宽的需求显然是存在的。虽然铜缆交换机仍将是一个繁荣的市场，并将继续发展，但光交换机将开始吸引高端交换任务。

专注于数据中心内部以及数据中心之间光通信的PAM4和相干DSP已经开始兴起，使光行业走上了一条更可预测的进步之路：光不再像其早期那样，仅仅是小作坊式的业务。即将推出的1.6T(200G/lambda)光模块在增加带宽的同时，还能减少元件数量，降低成本和功耗，具体取决于配置和工作负荷。

目前光技术何时以及如何被集成进芯片中，仍然是一个争论不休的话题。由于一系列原因，包括稳步提高的性能、广泛的生态系统、客户选择等，可插拔的光学模块，在未来几年仍将是通用工作负荷的标准。然而，共封装(co-packaged)光学解决方案，在人工智能集群内可能会很快得到部署。虽然共封装光学器件的可靠性和性能仍需得到进一步证明，但通过共封装光学器件，可能实现带宽、效率、以及功率密度的提升，将推动研究的快速发展，并反过来导致其性能的突破。

训练一个什么都知道、并不断变得更智能的单一模型，在规模上是值得怀疑的。

一个较好的方法是在云端训练一个具有通用能力的”通用”模型，然后再根据覆盖地区的具体情况、用途、目标受众等，重新进行边缘训练。接着可以考虑将所有的优化模型相互连接起来，创建一个知道一切的超级模型，就像由许多网站组成互联网一样。潜在地，对用户来说，这些都必须是透明的。

举一个人类自身的例子：孩子从第一天起就学会了说话，并具备与其他人互动的能力。这是进化训练人类操作系统的一部分。然后，根据当时当地的周围环境，这个孩子利用相关的语言、知识、行为等，对这一继承训练的能力进行“精细优化”，从而实现自我进步和成长。这种人类学习脚本，同样也适用于人工机器学习。

随着时间的推移，能耗和计算周期将下降，而消费者满意度也将上升，系统将输出更好和相关度更高的响应。

最后我们一定会成功。尽管其中的许多挑战令人生畏，但毕竟它们都还没有超出人们的想象力范围。上述所描述的这一切都不需要特别的资源。随着人工智能创新不断渗透进所有其他形式的计算中，技术努力所得到的回报将会越来越丰富。

接下来，所需要的只是一系列的试错过程，以及用新的范式替换一些旧的范式。通过不断扩展升级，就能成功应对人工智能的挑战。

(参考原文：Are we ready for large-scale AI workloads?）

文章来自：https://www.eet-china.com/