• 首页
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案
目录

这次不说chiplet的好,来谈谈chiplet的“坏”

在大部分媒体的宣传里,chiplet+先进封装都是顶好的技术,不仅有成本效益,而且还避免了reticle limit之类的工程问题,从更高维度延续了摩尔定律。去年电子工程专辑的封面故事《先进封装的现在和将来,价值链的未来重心》一文对此已经有过详述。

但实际上,chiplet面临的问题,即便在2023年的今天也一点都不简单。在chiplet+先进封装的芯片中,有个比较典型的例子是Intel面向数据中心的GPU芯片Ponte Vecchio(参见图1)。这颗芯片上堆了几十片die/chiplet,有做计算的,有做存储的,有做连接的,有做中介的。

图1:Intel Ponte Vecchio芯片示意图。

所有的die囊括了5种不同的制造工艺,而且有些是Intel造的,有些是台积电造的;在封装和互联方面,既有2.5D硅桥方案,也有上下堆叠的3D方案。如果要汇总概括chiplet与先进封装为半导体带来的价值,Ponte Vecchio应该是最有发言权的了。

2021年Intel在发布这颗芯片时,反复强调了其工程层面的难度。Intel的发言人甚至说:“Ponte Vecchio是我30年芯片开发生涯中,开发的最复杂芯片”。“由于tile(即die/chiplet)的多样和复杂性,Foveros的位置、floorplan需要在更早期阶段就确定”。这里的Foveros指的是Intel的3D封装方案,“Ponte Vecchio芯片的Foveros连接数也比以往Intel的设计高出两个数量级”。“测试验证也因此很复杂,需要实时位置为之更多的工具和方法”。

今年的chiplet封面故事,我们就来管中一窥地聊聊chiplet+先进封装发展的难处——即便这些挑战已经存在多时,当下也未必解决,这也仍将成为我们更进一步了解chiplet及周边相关技术的契机。

此前我们所做的诸多采访里,不少企业高层和工程师都说,chiplet对于整个半导体生态系统将产生深远的影响。对于一颗先进ASIC而言,原本系统设计将规格给到RTL工程师,RTL工程师写代码,并且可能和ASIC一侧合作搞定IP,随后才是封装介入…但这个松散耦合的流程在chiplet时代将不再合用,系统架构师需要和RTL架构师、封装设计合作。

在进行chiplet设计的时候,可能同时会有几种设计并行——它们并不在die层面互联,而是在封装层面——所以封装设计显然就需要介入,原本处在后端的这群人需要关注floorplan,确保所有的I/O都与高速内部接口做到对齐;还需要关注die之间的热耦合等问题——这些原本在非chiplet设计时代是不需要的。

比较有趣的一个问题是,半导体行业的大部分IP都是软IP,也就是说它们经常是制造工艺不相关的。但当IP硬化为chiplet时,情况就不同了。Chiplet需要融入到系统中去,更早期的规划和封装选择都息息相关。设计此时需要考虑的问题更全面、综合。比如相关其他chiplet设计的机械应力如何。那么在更早期的设计阶段,就不只是设计晶体管、核心IP的问题,还包括chiplet的floorplan。

这就颇有点儿“shift left”设计整体左移的意思了,仿佛传统芯片设计步骤中每一步所需的数据都更加综合和广泛了——尤其在分析工具可给出更多数据,喂给靠前流程之后。再往下探讨,对原本的IP供应商甚至都提出了更高的要求,软IP还是那个软IP吗?进而深刻影响从芯片设计到制造的价值链。

再比如在用较大的硅中介时(silicon interposer),热机械应力问题相当关键。在此测试就显得很重要——测试工程师需要保证所有的芯片都有对应的测试方案,故必然要更早地参与进来,如此才能搞清楚怎么做整个系统的测试。再比如封装重要挑战之一的散热问题,尤其在3D堆叠工艺介入时…

已经在借助chiplet技术做芯片并且量产的企业,包括Intel、AMD、苹果等。这些企业无一例外都用自己的chiplet。实际对于Intel、AMD这种自己内部开发chiplet,尤其Intel还留有自己fab厂的企业,问题还相对好一些。如果chiplet本身就来源于多个供应商和foundry厂,则问题会变得很复杂。

此前Synopsys首席运营官Sassine Ghazi曾说:“多die存在很大程度的复杂性。如何将你的架构进行拆分,并且做出预设架构层面的分析,包括热、压力、可靠性。”至少目前这还不是个可以高度自动化的过程——所以Intel才说在造Ponte Vecchio的过程里,是根据需要实时去做工具的。架构层面需要明确,“芯片中哪里是处理器,哪里是加速器,存储放在哪儿,总线怎么放”等等。分解完成后,die之间的热、可靠性、时序、电源分析都是问题。

一般情况下,作为一家芯片设计企业,若将来自不同供应商的chiplet做整合,则起码需要考虑互联、系统测试的问题。这些厂商本身都已经用自己的测试方法分别对chiplet做过了测试;但作为最终整合的角色,还需要对最终产品做测试。

原本monolithic单die方案下,发生问题要溯源,芯片设计企业自身通常会有足够的信息来做debug;但如果不同的die来自不同的供应商,即便检测到某个错误来自某颗die,其根源也未必就是这片die和这家供应商。如此一来,问题就变得相当复杂。

这就涉及到所谓的chiplet生态问题——当这样一个生态需要多方协作,则芯片设计、制造、封测流程都将发生相当大的变化;且有多方参与时,这样的生态就比Intel作为IDM关起门来设计、制造、封装芯片复杂许多,即便现在Intel的异构集成芯片也总有一些部分是来自外部foundry厂或供应商(如LakeField芯片封装的DRAM,就来自其他供应商)。

“生态”关乎的就是标准问题了,比如电压多少、I/O密度如何等等。即便是相同的foundry厂,也因为不同的chiplet来自不同批次,存在诸多需要考虑的问题。如果不同的chiplet基于不同的工艺,则有更多问题要解决:如选择die-to-die接口解耦合。

举例来说,某个要应用尖端制造工艺的特定IP连接到die-to-die桥的部分,其上有个处理器核心或者加速器,可以藉由AXI接口做直连,但很显然需要搞清楚核心/加速器如何获取数据——如果采用共享存储(shared memory)方案,如何访问存储就需要做定义。

如果是多核系统,还需要针对加速器本地存储做好系统定义,避免不必要的数据传输。那么这就不光是该IP本身的问题,而涉及到它所在的整个chiplet——这一复杂系统出现问题,光是搞清楚究竟谁是问题的根源就相当不简单。

可见把原本monolithic单die大芯片做拆解,可远不止是经济效益或者克服原有芯片制造缺陷这些红利而已。一堆复杂问题接踵而至,甚至可能对行业价值重心造成影响,乃至IP供应商这样的业务模型都受到挑战。所以直到现阶段,chiplet都只是少部分大型企业的专属。

图2:一个个chiplet相连组成了一颗芯片。

既然chiplet生态还如此不完善,或者说chiplet还不存在像媒体宣传中所提到的那样,在达成制造工艺高度灵活的同时,大规模适用的生态;那么对于设计一颗先进ASIC芯片的企业而言,他们就需要同时并行多个chiplet的设计,因为所有的这些chiplet最终是需要协同工作,构成一套系统的。

在做这颗AISC先期,就首先出现了需要多方协同的问题:如何做chiplet的“切分”(decomposition)。仅是切分这一个动作都有相当多的未知,现阶段谁都得摸着石头过河。而将chiplet再行藉由先进封装组成芯片的过程又充满挑战。

西门子数字工业软件此前在接受媒体采访时曾说,像3D堆叠这样的方案,现在在执行上仍以手动(manually)为主。真正的自动化工具应当是去做chiplet分解、在3D封装上要确保电源贯穿各个层,完成多die的时序收敛等工作的。但这样的工具要成为主流起码还需要2-3年的时间。

更多问题随之而来。Chiplet的重要价值之一,就是可以将不同的制造工艺融合到一起。比如说I/O die由foundry厂A制造,核心处理器由foundry厂B制造。可最终的两相结合却远不是这么简单。比如封装的信号连接数,当介入chiplet时,其数量就是非chiplet的两倍以上。

基于行业对chiplet的看好和发展趋向,就长期来看,多foundry的chiplet生态最终会成型。但这个“生态”究竟是什么样子,似乎还未见定数。

Synopsys认为,绝大部分集成系统还是会由一家企业供给,这家企业本身是chiplet的制造商,同时也是整个封装的集成商。某些特定的chiplet会来自外部供应商。当外部chiplet供应商构成竞争关系时,接口之类的问题就需要标准化了,即foundy A和foundry B的封装需要按照同一个标准去执行——或者最终做集成的企业需要有技术去隐藏不同chiplet的差异化问题。

对大部分企业和整个行业而言,最高效的方法自然是针对标准功能有标准的输入输出方案,这也是UCIe现在这么火的原因。连接标准的一致性当下仍是挑战,光是PHY层面的互联兼容性是不够的,控制逻辑与协议也需要彼此兼容。

在这一例中,最终做集成的芯片设计企业做个基于interposer的设计,即作为substrate连接来自foundry A和foundry B的两片die,其中要定义pin pitch等问题;则两家foundry厂需要按照对应的规则去执行。

而如前所述,chiplet级、芯片级、系统级的架构师此时需要和封装技术团队打配合。相比于常规的ASIC芯片设计,多出了大量架构规划相关的工作。不只是“左移”,这在chiplet生态系统里,增加了相当的工作量。

标准化问题上,比较大的一个挑战是chiplet之间的通信,尤其是当chiplet来自多个foundry厂时——这也是诸多现有标准的关注点。而一旦涉及到通信,安全问题又要提上日程;则通信机制需要考虑公钥加密之类的问题。Chiplet通信和安全级别的标准化很重要。

从物理层面来看,相邻的chiplet可能存在相互的热、磁作用问题。对此需要就chiplet间的layout架构做分析,对于chiplet间的相互作用进行建模。实际上,我们知道foundry本身会针对封装构建复杂模型来分析和测试,但显然范围仅限于自己负责的IP部分——所以如果是来自多个foundry厂,则更高层级的分析自然成为一大挑战:电路、layout、substrate等的复杂模型都需要考虑。

在标准化的问题上,还要考虑不同foundry厂的技术与IP保护,以及在此基础上去做低层级架构的协同仿真。另外还要考虑到,这些都是在芯片制造与封测面临的传统复杂问题的基础上额外增加的。

基于多foundry来源chiplet系统的复杂性,也有可能未来的走向会更偏向于单foundry负责所有chiplet的制造与中道封装。就好像台积电对于自家的不同制造工艺、先进封装一定是最了如指掌的。那么foundry资源还有可能更为集中。

至少目前还没有能够确保chiplet制造可靠性,以及针对其做测试的标准化方案;没有已经得到广泛验证的自动化设计工具集,来完成chiplet的整合;也没有多供应商的完善生态系统,做多来源chiplet的统一。

所以似乎chiplet走向“主流”这样的说辞,也暂时就限定在为数不多的玩家身上。

图3:目前仍只有少量芯片采用chiplet方案。

考虑一个符合直觉的问题,采用一种工艺和对应的PDK做一颗SoC,由于是单片硅substrate,热冲击和机械应力的问题并不会那么突出;而当问题变为不同的chiplet组成一颗芯片和封装,甚至还有堆叠在一起的die、材料、结构等各方面的差异,则温度与力学问题就变得很复杂。

这些会影响到电特性、可靠性乃至良率。Chiplet有时的模块化和弹性优势,需要考虑的问题就绝对不光是在一个封装内做加减法:一颗chiplet在某个封装内没问题,并不意味着将其平移到另一个设计内也没问题……

有关chiplet遭遇力学与散热相关挑战,以及具体到数据分析、DFT(Design for Test)扫描测试相关的探讨有很多。实际上,Chiplet现存阻碍还能列举一大堆。比如说大尺寸interposer,在其上堆砌不同材料、工艺,不同热膨胀系数的chiplet,以及最终封装着力点差异,令翘曲(warpage)问题的解决变得更具挑战性;不同尺寸chiplet做键合时,填充材料糟糕的热传导性,造成某一区域存在较大的热梯度,则相应又有了应力问题等等。

而且如前文所述,此类问题现在需要在芯片设计的早期环节就加以考量。这些个别的挑战和技术细节,未来我们可另外撰文探讨。泰瑞达(Teradyne)这次在接受我们采访时说:“Chiplet带来了许多新的挑战,如更高的功率,更加复杂的热条件,高速互连接口这些都在设计和可制造性上要有额外的考量。”从其测试角色的角度来看,“无论是可测试性、质量保证和成本优化,都会有不同的方法和策略。”

显然发展chiplet还需要在试错、技术积累、工具搭建、不同角色合作等方面做更多的投入。“我们需要与合作伙伴/客户在DFT上紧密合作,并整合新的设计流程和工具,考量比如像UCIe这样的新技术;关于质量成本也会更有意思,当我们引入更多的KGD(Know good die)时,需要通过考虑废料成本,设备测试成本以及在不同流程下测试的灵活性来优化整个流程,例如晶圆级测试,最终测试和系统级测试,并且背后有相关的工具来支撑。”泰瑞达在采访中表示。

作为测试环节的重要参与者,“我们正与台积电以及生态系统中的大多数合作伙伴密切合作,包括EDA公司、封装供应商,以及我们的客户。这不仅仅是测试,你需要整个供应链的流程、数据和工具协同工作,从前端到后端,并且技术也在不断发展。”显然,chiplet+先进封装时代,上下游协同是行业现如今最基本的外在体现。

当然这里并非在唱衰chiplet——以上大量篇幅探讨chiplet如今存在的发展限制,不是要表明chiplet是否有将来,毕竟技术问题总是能通过经验和积累来解决;而是探讨chiplet的发展未来会加速到何种程度,以及其应用会有多广泛。后一个问题或许才是关键。

泰瑞达说:“我们相信,由于chiplet带来的在性能、灵活性、以及成本和形状上的价值而被广泛应用。Chiplet可以应用于高性能计算、人工智能、数据中心以及消费领域等众多应用领域。”这其实是个共识,毕竟数据中心CPU、GPU、AI芯片,以及Mac电脑上,我们都已经看到了chiplet的应用。

但要在更广范围内应用,经过验证工具、IP及成熟生态系统,以及具体问题的解决和先进封装工艺的成本下降都是先决条件。我们总说chiplet能带来成本效益——这个成本效益显然暂时还只适用于大芯片。

简单补充一个技术之外的问题,即相关chiplet+先进封装可能引发半导体价值链重心变迁,以及业务模式革新的探讨。我们在不止一处听到过,随chiplet未来的发展,IP授权模式乃至IP供应商的角色都可能发生变化:即一方面IP授权收取版税的模式需要做出变革,以应对chiplet的蓬勃发展;另一方面IP供应商可能有一部分会转变为chiplet供应商,或者至少将扩大其初始职能。

这与chiplet+先进封装的芯片设计流程变化,以及chiplet在整个芯片架构上所处的位置,都有着很大的关系。但其最终结果仍然取决于chiplet生态,以及chiplet自身的发展程度。那就是另一个话题了。

本文为《电子工程专辑》2023年7月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

文章来自:https://www.eet-china.com/

相关文章