大模型，新范式，Transformer落地端侧、边缘侧迎来拐点

Transformer是当前各种大模型所采用的主要结构。从技术角度看，ChatGPT的爆发是深度学习领域演进、发展和突破的结果，背后代表着Transformer结构下大模型技术的飞速进展。

类似ChatGPT的大模型，其核心网络结构均基于Google 2017年的论文提出的Transformer的论文《Attention Is All You Need》。爱芯元智将其称之为“新范式拐点的到来”，认为Transformer大模型虽然本质上是一个预训练的模型，但却改变了传统的开发范式，因为它将构成复杂系统的三部分（如下）中的模型系统的使用成本大幅度降低。数字系统或是复杂场景，都可以分为三大部分：

“2022-2023年的拐点是什么？是大模型的出现让获取知识的边际成本开始变成固定成本。”奇绩创坛创始人兼CEO陆奇在4月的一次演讲中称，“一定要记住，任何改变社会、改变产业的，永远是结构性改变。这个结构性改变往往是一类大型成本，从边际成本变成固定成本。”

他举例说，自己在美国读书时，一张地图3美元，获取信息很贵。但后来，Google平均一年付10亿美元做一张地图，每个用户获得地图信息的代价基本上是0。也就是说，当获取信息成本变为0的时候，它一定改变了所有产业。这就是过去20年发生的，今天基本是free information everywhere(免费的信息无处不在)。

而ChatGPT能在历史上第一次两个月1亿活跃用户，挡都挡不住，为什么？因为，

1. 它封装了世界上所有知识。

2. 它有足够强的学习和推理能力。

3. 它的领域足够宽，知识足够深，又足够好用。

加在一起，范式的临界点到了，拐点已经到来。

近几年Transformer大有取代卷积神经网络(CNN)之势，因为它可以获取全局特征，有一定的知识迁移性，能够很好地适应各种场景，不仅在COCO榜单上处于霸榜状态，很多以CNN为主的框架也已经切换到了Transformer。

目前来看，Transformer大模型在云端主要还是通过GPU部署，在边缘侧、端侧硬件支撑方面，则更多依赖NPU实现对神经网络的加速。“这倒不是指CPU不能运行Transformer模型，只是它的运行速度无法满足实际应用落地需求。”爱芯元智联合创始人、副总裁刘建伟表示，之所以要强调速度，一是神经网络速度快，意味着终端设备可以运行更多类型的智能网络，更智能；二是即便不需要跑那么多类型的网络，那么某种程度上就可以把神经网络规模做大，提高精度。

另一方面，尽管CNN和Transformer都属于神经网络，但Transformer的计算访存比比CNN低，精度和灵活度高，而此前市面上的一些NPU主要针对CNN网络做了一些过拟合的设计，导致在部署Transformer网络时遇到了功耗、效率等诸多问题，现在需要找到合适的新算力平台，并在算法侧找到能降低大参数模型带宽的新途径。近年来Transformer被广泛应用到计算机视觉的物体分类领域，例如ViT、SwinT等，以及用在目标检测领域的DETR(DEtection TRansformer)。

其实，Transformer大模型方向在2019年就有人提出，当时在思路和训练方法上与传统CNN也并无太大差别，只知道“上限更高”。但近两年，随着自然语言处理(NLP)领域的突飞猛进，大模型通过无监督或是自监督的方式进行训练，正成为AI领域新的趋势。

爱芯元智在研发实践中发现，在以往的AI加速应用中，标准化的人、车、车牌类识别应用做得很好，但在一些更加通用的场景中，落地之所以不那么顺利，是因为它需要用户做更加有针对性的投入，且费用不低。而Transformer大模型面世之后，场景应用的AI智能边际成本会大幅降低，因为它不太需要再为这些长尾的场景做专门的适配，预训练的大模型凭借“足够强的学习和推理能力”、“足够宽的知识领域”，一经部署就能达到比较好的效果，从而推动AI在端侧和边缘侧更大范围内的普及和提升。

以河道垃圾监测为例：当河道上出现了一种垃圾，传统流程是采集数据—标注—训练，如果突然出现一种新的垃圾品类，是之前数据标注/训练没有覆盖的，系统就无法识别，就必须重新采集。但有了采用无监督训练的大模型之后，无论出现什么样新类型的垃圾，系统都能自主推理和判断。

如前文所述，如何在端侧、边缘侧高效部署Transformer正成为用户选择平台的核心考量。作为人工智能视觉感知芯片研发及基础算力平台公司，爱芯元智在今年3月正式推出的第三代高算力、高能效比的SoC芯片AX650N，为行业探索Transformer在端侧、边缘侧落地方面做出了有益的尝试。

AX650N是一款兼具高算力与高能效比的SoC芯片，集成了八核A55 CPU，43.2TOPs@INT4或10.8TOPs@INT8高算力的NPU，支持8K@30fps的ISP，以及H.264、H.265编解码的VPU。接口方面，AX650N支持64bit LPDDR4x，多路MIPI输入，千兆Ethernet、USB以及HDMI 2.0b输出，并支持32路1080p@30fps解码。

计算机视觉类是AX650N的核心应用目标之一。但是到目前为止，在计算机视觉建模一直由CNN主导，基于Transformer结构的网络模型长时间停留在各大顶级会议的“刷榜”阶段，真正大规模落地并不突出。直到ICCV 2021的最佳论文《Swin Transformer》才达到了准确率和性能双佳的效果。

同时，类似Swin Transformer的视觉类Transformer网络模型大多数还是部署在云端服务器上，原因是GPU对于MHA结构计算支持更友好，反而边缘侧/端侧AI芯片由于其架构限制，为了保证CNN结构的模型效率更好，基本上对MHA结构没有过多性能优化，甚至需要修改网络结构才能勉强部署。这也间接限制了算法工程师在边缘计算应用上进一步发挥Transformer网络的想象力。

实测数据显示，目前大众普遍采用的Transformer网络SwinT，在爱芯元智AX650N平台表现出色：361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的极易部署能力，都让AX650N在Transformer的落地中有着领先的优势地位。

具体来看，361帧的高性能可媲美汽车自动驾驶领域基于GPU的高端域控SoC；而80.45%的高精度成绩同样高于市面平均水平；199 FPS/W的速度也充分体现出低功耗的特点，对比于目前基于GPU的高端域控SoC有着数倍的优势。

更为重要的，AX650N部署方便，GitHub上的原版模型可以在爱芯元智的平台上高效运行，不需要对模型做修改，不需要QAT重新训练。与此同时，AX650N支持低比特混合精度，用户如果采用INT4，可以极大地减少内存和带宽占用率，可以有效控制端侧边缘侧部署的成本。这些特性都保证了AX650N作为人工智能算力平台，最终落地效果更好用、更易用，大幅提升了用户的效率。

目前，AX650N已适配包括ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型，在DINOv2也达到30帧以上运行结果，这也使得用户在下游进行检测、分类、分割等操作更加方便，落地更加现实。基于AX650N的产品也已经在智慧城市，智慧教育，智能制造等计算机视觉重要领域发挥出重要作用。

接下来，爱芯元智AX650N将会针对Transformer结构进行持续优化，包括如何对离散型数据实现较高的读取、如何让计算与数据读取匹配、使用INT4来解决大参数量模型、具备稀疏化支持能力和更好的量化精度等等，并且探索更多的Transformer大模型，例如多模态大模型，不断让Transformer在爱芯元智平台上得到更好的落地效果。值得一提的是，爱芯元智还将推出开发板，满足开发者对Transformer深度研究的需求，探索更丰富的产品应用。

“好用”、“易用”、“愿用”，是爱芯元智对Transformer结构落地AX650N平台的定位，而为客户搭建一个足够好用易用的平台成为企业核心目标。为此，在芯片整体架构方面，设计团队采用了异构多核的设计思路，允许特定内核具有可编程性；考虑到有些网络对数据的需求量比较大，在架构上提前做了一些预留；开发工具方面保留标准接口等等。从目前得到的反馈来看，在开发板、文档齐备的情况下，客户只需约一小时就能完成Demo模型的运行。

“在我们与客户的实际接触中，他们最担心两点：一是模型精度从训练到部署有没有失真；二是私有的原版模型在计算平台上能不能直接部署跑起来。”爱芯元智相关负责人说，这就要求芯片公司能在软硬件设计、开发工具、场景适配、灵活性、易用性等多个领域保持优势。

“未来，爱芯元智将在成为人工智能算力平台型公司的道路上继续探索，加速基于Transformer的大模型在端侧、边缘侧落地的节奏，让普惠智能真正落地生根，开花结果。”爱芯元智创始人、CEO仇肖莘女士表示。

文章来自：https://www.eet-china.com/