通过与 Jira 对比,让您更全面了解 PingCode

  • 首页
  • 需求与产品管理
  • 项目管理
  • 测试与缺陷管理
  • 知识管理
  • 效能度量
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案

25人以下免费

目录

现在的游戏显卡,加那么多AI单元真的有用吗?

大部分关注GPU的同学都知道,近代NVIDIA GeForce RTX GPU,里面也充斥着所谓的Tensor core。一般我们说Tensor core是用于AI与HPC计算加速的,或者说用于加速矩阵乘运算。从Volta架构开始,到现在的Ada Lovelace/Hopper架构,Tensor core已经走到“第四代”了。

Tensor core并不是传统意义上的图形渲染单元——它的存在也一定程度让GPU变得不再那么Graphical…从我们能找到的数据来看,早在Turing架构时期,Frizchens Fritz公开TU106Turing)的高分辨率红外die shot,提到TU106的一个TPC(Texture Processing Cluster)占die面积约为10.89mm²,其中的Tensor core大约1.25mm²——包含ALU、scheduler、cache相关部分。

Turing架构TU106 die shot,来源:Frizchens Fritz

从整个GPU die的角度来看,TU106的Tensor core占die面积大约在10%左右——当然这个数字未必可靠,因为我们还从其他来源听说,Turing时代的这一数值可能在20%左右;无论如何,这起码说明了传统图形处理器上,至少已经有这么大一片晶体管是“不务正业”的了。

这已经是前两年的数字了,TU106的Tensor core单纯看核心数是288个;这一代AD102(Ada Lovelace)的Tensor core数量已经增加到576个(RTX 4090并未全部用上这些核心);换句话说现在的GeForce图形卡,用在AI上的料可着实不少了。

这就涉及到一个问题,AI对于游戏和图形视觉类应用究竟有什么价值?这些die size拿来堆shader core之类的图形单元他不香吗?现在的AI计算,于游戏应用的一个重要价值在于:生成(generate)像素与帧——它和图形单元的区别在于,后者是渲染(render)像素与帧。

“生成”和“渲染”有啥不同呢?说点儿实际的,NVIDIA最新的DLSS 3技术支持超分辨率(Super Resolution)和帧生成(Frame Generation):玩个1080p分辨率的游戏,如果超分辨率到4K分辨率,就有75%的像素和一半的帧是AI生成的,而不是由图形渲染单元算出来的。而Tensor core投入的die size,远远不到图形渲染单元的一半,功耗更是低了不止一个数量级,这笔投入是不是还挺划算的?

也就是说,如果这些像素和帧都要由图形单元去算,那所需的晶体管数量、显卡售价、功耗水平都会冲着爆炸级别而去。最近NVIDIA在上海办了一场GeForce RTX 40系显卡品鉴会——这次品鉴会的主题之一就是DLSS 3,当然相关的还有全景光线追踪,以及OEM产品展示。不过我们重点就关注一下和AI关系最大的DLSS 3,以及其他与GeForce显卡相关的AI技术。

 

去年NVIDIA GTC开发者大会上,我就写文章说游戏方面让眼前一亮的是一个叫RTX Remix的工具,这个工具能给一些DirectX 7/8老游戏做MOD,让老游戏也立马支持光线追踪、DLSS之类的新技术。NVIDIA演示的《上古卷轴3:晨风》加上RTX之后的效果,的确堪称惊艳。

这次我们在品鉴会上看到了当时NVIDIA亲自下场给游戏《传送门:序曲》,基于RTX Remix做的《传送门:序曲》RTX版,让这个2008年度最佳游戏,看起来跟现在的新游戏似的。就玩家层面来看,和AI技术最相关的自然是DLSS——不过有关DLSS 3的部分,我们放到后面再去谈。


这里NVIDIA 作为开发者与《传送门:序曲》(Portal Prelude) 的原创Nicolas “NykO18” Grevet以及著名Mod爱好者David “Kralich” Driver-Gomm合作对《传送门:序曲》RTX版进行现代重构时,本身也是受惠于AI的。如果你仔细阅读了我们剖析RTX Remix的技术文章会了解,RTX Remix并不单纯是给老游戏加上光追、DLSS之类的支持这么简单。

这套工具里面有个AI纹理工具——一方面能够将低分辨率的资源(asset)upscale为4倍高分辨率,比如1080p分辨率就upscale为4K;另一方面,AI可以对老游戏中的纹理进行inference,将比较老旧的纹理,转为某种材质精美的纹理,NVIDIA在此前的媒体会上称其为“Re-Texturing”,AI纹理工具“看到”画面以后,能够“理解画面原本想要呈现的材料”,比如看到一扇木头门,就能很快用高分辨率、高质量的木质纹理对原有纹理做替换。

那么很显然这里的AI纹理工具,是首先需要NVIDIA去做个网络模型的。NVIDIA方面说是对游戏纹理的大量图片做了训练,这样的网络可应用于纹理、物理属性之类的推理。是不是还感觉挺神奇的?


《上古卷轴3:晨风》开关RTX前后变化

我们在这次品鉴会上问了NVIDIA,除了DLSS这样的技术,在游戏对AI的利用上还有什么样的规划。NVIDIA谈到了NVIDIA Omniverse ACE(Avatar Cloud Engine)已经在和“开发者合作中”,“后续应该就会有比较好的呈现”。

去年GTC报道中我们谈过ACE,这两年在网上还挺火的Toy Jensen——就是那个黄仁勋3D卡通形象,也部分基于ACE;还有包括Violet、Tokkio之类的虚拟形象应用,都有ACE技术成分。去年我还撰文谈过Toy Jensen这个角色形象身上存在多少种不同的AI技术和“microservices”,包括Audio2Face生成式AI——基于音频就能构建脸部动画、Riva——将单纯的文本说出来的text-to-speech、Nemo生成式AI——可以理解为针对特定领域的定制版ChatGPT等等…


从最简化的工作框图来看,文字、音频、视频数据输入到ACE网络,就能输出2D或者3D形象(模型训练流程应该是在DGX Cloud上进行的)。从NVIDIA市场宣传老是爱换某些概念的名字和定位(不是…)的传统来看,ACE未来囊括的AI技术应该会持续扩展。

那么很容易想见,将这些应用到游戏开发中会有怎样的化学反应。前两个月的Computex上,黄仁勋特别发布了NVIDIA ACE 游戏开发版,用于构建游戏中的NPC,NPC的角色反应通过生成式 AI 变得更智能。想象游戏中的NPC都有ChatGPT般的聊天能力…

我们现在暂时还不清楚,将来基于ACE的网络模型inference具体会怎么做。不过听NVIDIA的意思,具体到玩家这一侧,与NPC对话的AI inference可能是由GeForce显卡的Tensor core来完成的。

我倒是觉得,这对Tensor core的利用相比DLSS更为充分了。虽然这东西一听就知道,又是个需要生态和开发者支持的大工程——好在从现有市场来看,NVIDIA生态构建能力,在图形和AI领域都是无出其右的,DLSS不是发展得就挺好么。


AI短片《Flower》

内容创作部分,最后再来谈一个品鉴会上的demo:NVIDIA请来了B站up主特效小哥008和拓星研究所的达威,展示他们用AI辅助制动的特效短片《Flower》——后续应该也会在B站发布。据说这个短片在AI辅助创作下,4个人只用了5天时间完成,008说按照以往的流程,这样一个短片可能需要长达1个月的时间去制作。

从现场听到的介绍来看,该短片制作至少用到两个AI相关的工具,其一是NVIDIA Canvas——这应该也是现在Omniverse生态里的工具,即在画布上,用笔刷简单画几笔,Canvas就能基于AI自动生成photorealitic真实风格的风景画。今年CES上,NVIDIA对此做了更新,新特性叫Canvas 360,即开始支持360°全景图——构成环绕场景。

《Flower》的创作应该就是基于Canvas 360特性,CG短片的背景是用Canvas完成的。感觉比较奇特的是,Canvas 360特性中,创作者可以构建等矩阵(equirectangular)环境图,导入到3D应用里——然后就能改变场景光照,增加反射之类的。008告诉我们,Canvas生成的山、云等背景,对于短片制作非常方便。


品鉴会现场用笔记本演示Canvas应用

其二是Stable Diffusion——这个text-to-image生成式AI,大部分同学应该也很熟悉了。“搭好场景,渲染好之后,丢进Stable Diffusion,让AI去做更进一步的工作。”“AI帮我们填充了很多东西”,比如机器人身上的金属划痕细节、“手部细节”,“这些都是原资产里没有的,AI填补出来的”;在模型精度较低的情况下,“AI帮我们填充了很多想要的细节”。

不过整个短片制作应当不仅限于这两个AI构成,包括动作捕捉(Move AI),以及文字脚本、视频最后总结的一行字甚至也都是AI完成的。全部工作流用上了“4张40系显卡,结果还是挺梦幻的”,008说。

NVIDIA现场也提到了自家AI工具的一些合作应用案例,比如Canvas已经在火星时代做应用;好像每年GTC或者包括SIGGRAPH、Computex之类的会,NVIDIA都要宣布一堆AI相关的新合作,多少也是要表明自家AI生态的构建情况。

我们在这部分谈《传送门:序曲》RTX版游戏、NVIDIA ACE 游戏开发版,以及《Flower》短片的这三个例子,都是要说明AI技术于游戏开发和内容创作,正在扮演越来越重要的角色,Tensor core在娱乐与生产力方向也正变得预发重要。

其实我们始终觉得,现在的AI应用,于创作流程仍然只呈现出了点状,就好像《Flower》短片制作,是某些地方用上AI做辅助;生产力、游戏,和多媒体创作上,AI的参与度未来还会越来越深入,尤其是在生成式AI为这个路径指明了方向以后。

从NVIDIA Omniverse和AI这两大板块的加速库到应用框架,仍然可以看到很多东西可在游戏、生产力上做应用的潜力;而且这里还没有谈到AR/VR之类的部分。举个例子,我记得去年GTC上,黄仁勋展示了某个AI-powered character,这些角色基于人类动作数据来学习人类的真实动作,包括走路、跑步、挥剑——据说角色训练机制原本要求10年期的模拟,但基于大规模并行GPU模拟,只需要现实世界3天就训练完成。

训练完成后的角色掌握各种技能,还能执行更复杂的任务,比如撞倒某个东西、往不同方向前进,甚至我们用自然语言能去控制它。不说这东西对Isaac之类有什么用,感觉于游戏3D角色的动作多样化、自然流畅都有相当的价值(虽然可能这东西云端和本地算力需求也十分巨大),远比现在的游戏体验更好、更丰富。

 

谈游戏AI嘛,自然少不了DLSS——相比前面谈到的内容,DLSS对玩家可产生的直观感受提升应该是更为显著的。大部分玩家对于DLSS 3应当都挺熟的了,这里不再细说其技术细节。

简单来说,DLSS 3是在原本DLSS 2能够做AI超分辨率的基础上,加入了帧生成和Reflex低延迟技术。如文首所述,DLSS 3帧生成是通过AI生成的——它更像是image图像领域的技术,而非由graphic图形计算获得。

具体是怎么补的,可以参见我之前撰写的文章,总结起来是运动矢量+光流。GPU硬件层面,这代Ada Lovelace是加入了光流加速器的。另外,配套的Reflex通过抹去渲染队列的延迟,不仅抵消了补帧在流程上增加的延迟,而且让输入到显示设备响应全链路的延迟降低到一个新的水平。

此前GTC上演示DLSS 3比较让人印象深刻的是Racer X,GeForce RTX 4090 + DLSS 3相比RTX 3090 + DLSS 2,设计场景实现了将近4倍的帧数提升。DLSS 3的帧生成在其中是起到了相当大的作用的。


这次品鉴会让我印象比较深刻的一是跑Unreal Engine虚幻引擎的实时渲染官方demo,现场工作人员说当场景变得非常复杂时,RTX 4090的实时渲染帧率也只有差不多20fps;引入DLSS 2做超分,则帧率能够提升到接近30fps;而藉由DLSS 3补帧,画面提升到接近60fps;

其二是NVIDIA与国内的建筑软件D5的合作,在D5加入DLSS 3支持以后,建筑场景实时渲染可以从30fps提升到60fps。这些对于创作者、设计师而言都是体验层面质的提升。

之前总有部分游戏玩家说,AI生成的像素和帧“不算数”,渲染算力才是“真正的”算力。这话或许得分两部分来看。其一是评价一个复杂系统的性能,应当以高抽象层级的性能表现为判断依据,而不是系统中的某一个组件。在游戏和设计类别的应用里,所谓的“高抽象层级”就是玩家和用户的体验。画面好不好看、动起来流畅不流畅、综合体验行不行是铁一般的判断标准。

实际上即便在传统的图形渲染管线里,也有各种诸如数据压缩之类的奇技淫巧在发挥作用——这些取巧的技术算不算数呢?何况在图形学生态变得复杂、多样时,衡量一个系统的优劣,早就脱离了FP32算力的范畴。图形加速卡发展的历史长河中诞生过很多不同的技术,AI现在作为其中一环,“怎么不算呢?”

另一个关键问题是,半导体行业的摩尔定律停滞。单纯靠堆shader core和存储资源,要达成品鉴会上Unreal Engine或者D5演示demo的60fps,现阶段所需付出的代价恐怕是任何玩家、工作室,乃至HPC数据中心都无法承担的;AI的诞生可以说是摩尔定律停滞时代的必然——因为这是系统层面提升面积与成本效益,外加能效的最佳选择。

这里面最应该担心的应该是DLSS的生态建设情况。因为要动用Tensor core加速,必然要求游戏和其他图形应用开发者在代码层面做支持。如果这个生态吸引不到足够多的开发者参与,那么Tensor core和AI技术才是白白浪费了。


好在品鉴会上,NVIDIA说DLSS 3在推出半年内的普及速度,相比于DLSS 2同期,已经快了7倍。到目前为止,支持DLSS 的游戏已经超过了300款,其中38款游戏和应用现已支持DLSS 3。

品鉴会现场展示了不少支持DLSS 3的游戏,不仅是《赛博朋克2077》这类在光追特性上需要耗费大量算力的3A游戏——尤其在overdrive超速模式诞生以后;还包括《暗黑破坏神IV》这样的网游——DLSS能够走进网游,应当也某种程度表明了这项技术大众化的开始。

现场工作人员说,《暗黑破坏神IV》1080p分辨率下,RTX 4060就能稳定在100fps以上;而“有些玩家期望做到极致,开4K分辨率,那么有了DLSS 3,也能达到60fps”。这是GPU这种大芯片在即将突破reticle limit的时代,AI在体验层面实打实的加成。

其实这次NVIDIA期望展示的重点,应该在国产网游对DLSS 3的积极支持上,包括《永劫无间》《鸣潮》的PC端,是尚未公开、未来很快就要加入DLSS 3支持的demo演示;现场还有尚未上线的《重生边缘》独家Demo,对光线追踪的完整支持引入,有了DLSS 3以后,RTX 4060玩2K分辨率也能有100+fps的帧率。

也有《无畏契约》这种追求低延迟,因此单独加入Reflex的FPS游戏——现场工作人员告诉我们目前排名前10的FPS游戏,9款都已经集成了Reflex。这些也都是NVIDIA图形生态的组成部分。

 

去年我们跟芯片行业内的不少企业高层聊元宇宙,大家都认同电子游戏就是元宇宙的某种雏形——玩家在里面消费、交流、游览…元宇宙作为虚拟世界,图形构建需要依托GPU——而元宇宙相比游戏会惠及更多人,GPU的市场还会有一次井喷。

也不光是元宇宙、电子游戏、专业视觉设计,社会数字化转型整体都对算力有着指数级增长的需求,则单靠摩尔定律支撑下GPU的图形和通用计算单元顶着,是真的不够看。何况摩尔定律还延续不下去了。

这时候我们看到,NVIDIA面向游戏在图形卡上加入用于AI计算的Tensor core,为游戏布局DLSS 3、ACE等各种AI技术。大体思路就是图形和AI一边渲染、一边生成像素,GeForce RTX 40系时代更像是未来世界的某种模板。GPU是在摩尔定律走不下去,单位面积再难成倍塞下晶体管时,获得了AI的救赎的。

当这种思路扩展到更大范围,不就是元宇宙和新时代的数字生活么?现阶段还真的只有NVIDIA这一家做到了牢牢把持图形与AI/HPC两边的生态,并且双方还正以相辅相成的姿态往前走。

文章来自:https://www.eet-china.com/

相关文章