ChatGPT激发了全球对人工智能(AI)的丰富想像力。这个聊天机器人可以写文章、作曲、甚至还可以用不同的语言与人类交谈。如果人们读过任何ChatGPT的诗歌,就会发现,虽然它还没有通过图灵测试,但无论是与数月前、还是与专家对人工智能的预期相比,都是一个巨大的飞跃。在刚刚发布的前5天里,ChatGPT的注册用户就超过了一百万人,这一数字打破了技术应用的历史记录。
这股风潮也强化了以下论点:即人工智能将对人类的生活方式产生巨大影响。有些人预测,到2030年,人工智能透过对制造业、零售业、医疗保健、金融系统、安全和其他日常流程进行精细的最佳化调整,将对全球GDP做出重大贡献。
但这一突然的成功背后,也凸显了人工智能当前最紧迫的问题:即如今的运算基础设施并非为处理人工智能工作负载而建造。在过去5年里,人工智能网络的规模每年成长近10倍。到2027年,数据中心中有五分之一的乙太网交换器将专门用于人工智能、机器学习(ML)和加速运算。
于是,大规模人工智能即便在技术和经济上并非不可能,但现实中也变得不切实际。即使是对环境来说,也是很可怕的影响。因为训练一个像GPT-3这样的模型,就用了1,750亿个节点,耗能高达1,287兆瓦时(MWh),这么大的能耗足以供给大约120个美国家庭整整一年的使用量。如果将该模型性能提高10倍的话(未来肯定会达到),其运算力和能源需求还将增加1万倍。
为了摆脱这种螺旋式上升的资源需求,就需要从头开始重新思考运算架构。对于所有即将到来的变化,虽然不可能全部预测到,但笔者认为以下这些变化即将到来:
系统中的每个单元——CPU、GPU、DPU、存储器、储存装置、网络等等,都必须能够依照自己的步调进行升级和改进。以使创新能够跟上演算法需求和容量/传输量需求,这也意味着将消除它们之间的相互依赖。
存储器就是一个明显的例子。在过去的几年里,存储器已经成为扩展性能的瓶颈。虽然对更多宽带和容量的需求一直在不断增加,但现在几乎不可能再扩展主机的存储器介面。
正在走向商业化的CXL技术,可以绕过传统的PCIe介面,而透过CXL连接将更多的存储器连接到处理器。CXL还允许不同的处理器和设备共用外加的存储器池。数据中心还能够从老旧的服务器上回收存储器,用于创建CXL池,以最佳化其总体拥有成本。
这样做最起码能够实现:更好的资源利用率、更高的峰值性能,以及更好的投资报酬率。储存和网络已经在一定程度上被分解,但未来人们将会看到数据中心的完全模组化,不同的功能和/或元件将会分布在各个设备中,并具有动态变化的关系。
不过,上述分解产生了延迟、潜在的宽带瓶颈也遏制了性能。为了充分发挥分解的潜力,需要一种能够最大限度地减少这些缺点的传输媒介。
如上所述,功耗是一个真正的问题,功率密度也是如此。为了解决新出现的任务和应用,需要建立更大、更密集的人工智能平台。在许多情况下,以所需速率和供电要求实现电气连接时,需要元件彼此靠得很近,这将导致功率密度问题,进而限制了人们在集群中添加更多人工智能元件和进一步扩展的能力。
光是唯一能够有效解决这些问题的传输媒介。光已将机架连接在一起,在下一阶段,光将被用来连接机架内的设备,甚至用于系统节点内部。诸如人们熟悉的CXL等协议,也都将转移到光领域。
有一个例子可以说明人工智能平台的规模。例如一个目前速度为25Tb/s的乙太网交换机。为了简单起见,先不考虑冗余、根和拓扑架构,这个交换机可以容纳大约500台服务器,相互间用典型的50Gbit/s的速率连接。然而,该交换机可以容纳多少个采用以3.6Tb/s (实际发布的总速率为900GB/s)速率连接集群中对等GPU的高端GPU呢?答案是仅为七个!
因此,对更高宽带的需求显然是存在的。虽然铜缆交换机仍将是一个繁荣的市场,并将继续发展,但光交换机将开始吸引高端交换任务。
专注于数据中心内部,以及数据中心之间光通信的PAM4和Coherent DSP已经开始兴起,使光产业走上了一条更可预测的进步之路:光不再像其早期那样,仅仅是小作坊式的业务。即将推出的1.6T (200G/lambda)光模组在增加宽带的同时,还能减少元件数量、降低成本和功耗,具体取决于配置和工作负载。
目前光技术何时,以及如何被整合进晶片中,仍然是一个争论不休的话题。由于一系列原因,包括稳步提高的性能、广泛的生态系统、客户选择等,可插拔的光学模组,在未来几年仍将是通用工作负载的标准。然而,共同封装(co-packaged)光学解决方案,在人工智能集群内可能会很快得到部署。虽然共同封装光学元件的可靠性和性能仍需得到进一步证明,但透过共同封装光学元件,可能实现宽带、效率,以及功率密度的提升,将推动研究的快速发展,并反过来导致其性能的突破。
训练一个什么都知道、并不断变得更智能的单一模型,在规模上是值得怀疑的。一个较好的方法是在云端训练一个具有通用能力的“通用”模型,然后再根据覆盖地区的具体情况、用途、目标受众等,重新进行边缘训练。接着可以考虑将所有的最佳化模型相互连接起来,创建一个知道一切的超级模型,就像由许多网站组成网际网络一样。潜在地,对用户来说,这些都必须是透明的。
举一个人类自身的例子:孩子从第一天起就学会了说话,并具备与其他人互动的能力,这是进化训练人类作业系统的一部分。然后,根据当时当地的周围环境,这个孩子利用相关的语言、知识、行为等,对这一继承训练的能力进行“精细最佳化”,从而实现自我进步和成长。这种人类学习脚本,同样也适用于人工机器学习。
随着时间的推移,能耗和运算周期将下降,而消费者满意度也将上升,系统将输出更好和相关度更高的回应。
尽管其中的许多挑战令人生畏,但毕竟它们都还没有超出人们的想像范围。上述所描述的这一切都不需要特别的资源,随着人工智能创新不断渗透进所有其他形式的运算中,技术努力所得到的回报将会越来越丰富。
接下来,需要的只是一系列的试错过程,以及用新的范式替换一些旧的范式。透过不断扩展升级,就能成功应对人工智能的挑战。
(参考原文:Are we ready for large-scale AI workloads?,by Noam Mizrahi)
文章来自:https://www.eet-china.com/