• 首页
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案
目录

存算一体,推动“数据计算文艺复兴”时代的到来

在计算中使用某种形式的存储器以实现“存内计算”或是“存算一体”的做法,最近成为了人们热议的焦点。由于能够突破冯·诺依曼(von Neumann)架构中令人生厌的“存储墙”和“功耗墙”,这些新的架构被视作未来30年内,推动“数据计算的文艺复兴”时代到来的关键力量。

其实,“存内计算”并不是什么全新的概念,“存储墙”一词在上世纪70年代就有人提出过。苹芯科技创始人兼首席执行官杨越在接受《电子工程专辑》独家专访时指出,对比40年前,PC时代的发展诞生了英特尔、AMD这样的公司;20年前,移动互联网时代对并行处理海量数据的能力提出了新要求,英伟达GPU开始“大杀四方”;进入人工智能时代后,信息量呈现爆炸式增长,但考虑到时延、安全、成本等原因,把所有数据都放到云端去进行处理和传输、存储和分析又是不适合的。

于是,算力下沉的趋势开始呼唤一项新的技术,要求能够在追求更好性能、更高效率的同时实现低功耗、低延迟和低成本。而存内计算方案由于无需频繁搬用数据,能耗显著降低,简化的存算结构更易于硬件实现,更符合AI时代的要求。

苹芯科技创始人兼首席执行官杨越

众所周知,算法(Algorithm)、数据(Big data)和计算能力(Computing)并称为新AI时代三大驱动力,但在实际应用中,我们发现尽管很多AI硬件平台都展示了自身所具备的强大算力,然而当用户在真正运行一个应用时,却常常发现由于存储带宽和存储架构的限制,很难将所有的AI运算单元填满,从而导致硬件的计算效率低下。比如GPU的整个计算单元利用率就不高,只有15%-30%,其余都需要通过软件,甚至应用层来做适配。

而在设计AI平台的时候,大量运算引擎所带来的能量消耗也是不可忽视的。测试数据显示,如果将完成16位整数加法能量消耗定义为1,那么将32比特的数据从DDR内存传输到芯片中,就将花费1万倍的能量消耗。因此,过大的访问带宽将会直接导致AI芯片功耗高居不下。

在杨越看来,AI计算中最底层,且占绝大部分运算量的基础算子(张量、矩阵、向量)运算,是非常适合于在内存中完成的。而且,在端侧推理运算中,显著特征之一就是权重的部分参数在整个运算中保持不变,也特别适合把数据留在内存中参与运算。最后,由于绝大多数的计算机在芯片内部的能量损耗,主要是来自数据/内存间的搬运读写,如果能够节省这部分的功耗,对计算效率的提升可想而知。

“从最朴素的逻辑来讲,存算一体应该是为阵列式运算进行加速最有力的武器。”他说。

不过,“存内计算”概念虽然提出很久,但始终未能实现大规模量产与普及应用。“一项技术的商业落地,不仅仅是在实验室和公司内部实现自证,更多是要在应用层面上得到产业链上下游的认可,我认为目前的生态系统还属于建设早期。”杨越分析认为,客户有自己的产品设计思考和运维周期,对于是采用低风险的成熟技术,还是风险稍大的新技术,他们有着自己的考虑,这不仅仅是一个单纯的技术问题。

其实这与GPU刚被应用于通用计算时的情形非常相似,用户也是在CUDA逐渐搭建起来之后才对GPU产生了兴趣,愿意切换生态。从某种程度上来说,“如果有一天面向存算的CUDA生态成熟起来,那就完全是另外一种局面了。”

其实,大家愿意用存算一体化技术的原因,无外乎是欣赏存算核心的高能效比与计算效率。但在实际使用过程中,面对诸如参数如何配置?输入输出什么样的时序?等问题时,用户可能并不熟悉,这就要求存算一体公司拥有自己的产品、软件和开发工具,并且生态足够好、足够完备。

杨越建议未来“存内计算”的生态壁垒可以从技术和战略两个层面加以突破。例如在技术层面,要对“用户的编程接口”和“统一指令集”给出清晰定义,这样既决定了软件内容,也便于用户直接调用基于存算的运算库,而不必了解底层硬件实现形式;战略层面,除了国家政策导向外,还要强化与高校和国际同行的合作,更有助于该技术的推广与应用。

作为一家成立于2021年的存内计算“新势力”,苹芯科技的定位是一家专注于AI芯片存内计算技术研究与应用的公司,已经流片发布的两款产品中,一款用于端侧智能语音检测,另一款则偏重图像视频处理。考虑到存算一体技术相对来说还比较新,需要不断地打磨和迭代,苹芯科技在前期采用了“小步快跑”的策略,力争尽快完成多次流片验证。下一步,除了更多关注算力升级,覆盖更多大算力模型和不同类型的数据格式外,加速产业化和商业化落地,会是苹芯科技更加关注的方向。

之所以选择AI芯片这一赛道,杨越总结了两方面的原因:一是从时间节点上看, AI开始真正的在许多行业里落地; 二是, 新型存储器底层技术的加速成熟,从人脸识别、关键字识别,到现在的ChatGPT,计算机逐渐开始取代一部分人类不擅长的工作,这是AI的使命。加之几位创始人的求学背景和工作经历,使得利用存算技术打造AI芯片成为了自然而然的选择。

目前,苹芯科技的整个芯片迭代验证过程已经完成了四次流片,每次流片验证的目标都不尽相同:有从模拟到数字的验证;有从小算力(几十个GOPS)到大算力(1T GOPS)的可延续性验证;还有从存算加速内核到SoC的验证等等。验证结果表明,存算技术可以进行矩阵和向量逻辑的加速运算,能够实际运行若干个比较典型的神经网络。即便在软件不做优化的条件下,也有比冯·诺依曼架构能效比至少提高5-10倍的结果,符合预期。

但,“同一款芯片不可能同时在吞吐量、面积和能效比三项指标上都做到令人满意,芯片设计公司在底层技术上是讨论不出答案的。“杨越表示,这需要产品层、甚至是应用层给出指导反馈意见,需要以产品和客户需求为驱动,“我们一开始专注做底层加速单元设计的时候,对此是并不清晰的,需要一个逐渐成长的过程。”

接下来,在SoC层面,苹芯科技的思路是不仅仅要支持某一类垂直应用,还要提高芯片通用性,让更多客户可以触达同一款芯片,或者说用同一款芯片触达更多客户。用“宽度+广度”的描述也许更容易理解:宽度,由于存算支持的是比特级、阵列式运算,平行度比较高,除AI类应用之外,一些非AI类应用也非常适合;广度,如果仍然还要在AI领域内寻找新战场,以IP形式加速大芯片计算过程中的某一部分张量、向量和矩阵的运算,会有比较多的机会。

当然,一些战略层面的思考和提前布局也十分必要,杨越及其带领的团队还需要回答一系列关键问题:比如在新工艺节点上是否具有可持续性?晶圆代工厂是不是能够支持更高制程工艺,可靠度如何?新兴存储器的选择、时间点切入、量产风险?如何在合适的行业赛道中找到合适的战略合作伙伴?等等。

这是一句中国的老话。意思是再激动人心的远方,也要依赖于坚实的基础和天才的创新。对于存内计算来说,抛开基础存储器件去谈无异于“纸上谈兵”,对于这一点,无论是国际存储巨头,还是苹芯科技这样的初创新锐,他们都有着清醒的认识。

目前,存内计算的主流技术路线分为3种,分别是Flash、静态随机存储器(SRAM)和阻变式存储器(RRAM),苹芯科技选择了SRAM。

“选择SRAM,我们有着多方面的考量,包括SRAM对高端制程工艺有着比较好的兼容性,产品可靠性更高。同时,在下游的供应链环节,公司可以更容易获得流片的渠道、代工厂相关制程工艺的提供和稳定性也有保障。”杨越说,尽管团队一些核心成员此前在磁性存储器(MRAM)、忆阻器方面有着深厚的积累,但就当下而言,选择SRAM对于苹芯科技短期内迅速将存算技术产品化、可落地,树立企业品牌,积累客户信任度,是非常好的选择。

从应用层来看,考虑到在实际处理比较复杂的AI模型过程中,并不可能将全部模型一次性放入内存中,反而是以“层”为单位进行数据处理。这样,作为易失性存储器的SRAM由于没有擦写次数上限,避开了一些非易失性存储器面临的内存管理等难题。

但他并不否认Flash和RRAM也有各自的优势,例如它们的存储密度相对SRAM会更高,在学术界,曾有人提出RRAM一个存储单元就相当于普通内存11比特的存储量,非常有吸引力;两者都属于非易失性存储器,即使遭遇断电,数据也不会遗失,相关的工艺和功耗表现也都十分出色。

“行业内近期的确出现了不少致力于存算一体化的公司,但各家的目标市场、底层技术路线、实现存算一体的路径都不相同。事实上,目前还没有看到任何一家的技术方案是完全一样的,这是一个排列组合、百花齐放的过程。”杨越强调称。

曾有行业人士进行过预估,存内计算大概会比现有芯片的理论极限再高出1000倍。这意味着存内计算未来可能还有几百、几千倍的发展空间,各家公司从现有端侧产品线向更高算力迈进的趋势也应该会逐渐明朗起来。

如前文中所述,AI只是阵列式运算加速的一部分,当一个小的存算内核足够稳定,设计足够优秀的时候,我们可以通过堆叠的方式向大算力应用领域迈进。从底层器件角度分析,新兴存储器在过去几年内发展非常快,良率、误比特率(Bit Error Rate)提升幅度极大,像忆阻器这样的技术有望在未来3-7年内成熟起来,带动“混合计算”模式成为主流。

杨越解释说,之所以会出现“混合计算”模式,是因为现在的计算机体系正呈现出类似金字塔式的分级架构,如果存算也参与了整个数据的计算和处理,那么存储器也会有相应的层次结构(Memory Hierarchy),例如基于RRAM去完成数据量较大的计算,而SRAM更适合那些追求速度或是精度的计算。以AI模型为例,内部不同的计算密集型和存储密集型运算,就应该寻找不同存储介质去完成各自所擅长的工作。

继续完成存算一体芯片产品设计优化与系统搭建,与市场协同验证迭代产品设计,推动完成存算一体技术实施落地的完整产业化流程,这是苹芯科技接下来要做的“三件大事”。杨越说,存算带来的性能上的巨大提升,是“看得见、摸得着”的事情,但如何将运算效率从内核级上升到系统级,是所有存算公司需要解决的核心问题。

本文为《电子工程专辑》2023年6月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

文章来自:https://www.eet-china.com/

相关文章