• 首页
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案
目录

为什么更新GPU驱动,有时相当于买了块新显卡?

绝大部分关注Intel Arc独显的同学应该都知道,现在Intel针对Arc独显在做的,就是马不停蹄地更新驱动、完善图形与GPU相关生态。最近的Intel Arc显卡媒体分享会上,Intel就提到自去年Arc独显上市至今,Intel已经累计发布了21个版本的驱动。

好像近两次我们参加Intel显卡相关活动,多少都跟驱动更新有关系——上次是Q1’23 Arc Update大版本驱动更新带来老游戏帧率大幅提升的消息,我们也做了Arc A750显卡的体验,某些游戏的性能提升幅度可以达到1.5倍以上——更新驱动约等于买新卡…

不过这也不奇怪,像GPU这种和生态强相关的硬件,自市场走向成熟以后,软件投入就必然是巨大的:一方面得提升驱动效率、发挥硬件性能,另一方面得让开发者都来用相关技术。这些工作的开展都不容易。

这次,我们在位于上海紫竹的英特尔亚太研发有限公司再度感受了,驱动更新带来的体验升级。以往Intel Arc显卡驱动更新的重点,主要是放在了图形渲染这边的;这次媒体引擎相关的部分所占篇幅也很大;另外Intel相对罕见地演示了自家图形卡的AI能力。

相关游戏的部分,这次Intel主要谈的就是XeSS——也就是Intel的AI超分技术,此前我们也特别XeSS技术的细节做过介绍。这类技术是利用机器学习,将低分辨率的画面超分成高分辨率——比如GPU渲染1080p分辨率的画面,藉由XeSS就能升格为4k,且画质与原生4k渲染的画面还非常接近。

这种AI超分技术应该说是现在的大热门,不仅是Intel、英伟达这样的桌面GPU市场参与者,移动市场也正跃跃欲试。因为AI超分能够让GPU以更少的图形渲染资源,来获取更好的流畅度体验。也是Arc A770能够以2k分辨率畅玩诸多3A游戏的技术依据之一,比如《杀手3》,2k全高画质,开启XeSS性能档能够将帧率从33.6fps提升到68.1fps。

不过这类技术在得到硬件、驱动、图形API和图形引擎的支持以后,还需要开发者做代码层面的改动。于是这就涉及到生态问题了:对游戏玩家和图形应用的用户来说,那就是究竟有多少游戏和应用支持了XeSS。当然,各类中间件的支持情况也是生态发展的体现。

先来聊下XeSS技术本身的进化。Intel在今年Q1后期就将XeSS更新到了1.1版本,AI模型本身有了更新。似乎主要是加入了更多训练数据集,尤其是某些“罕见场景”,则可覆盖更多游戏画面场景的超分,减少此前1.0版本在极个别场景下的画面闪烁或摩尔纹现象;

另外XeSS内核做了优化,“DP4a和XMX路径都得到了性能提升”。上面这张图给出的是单就内核runtime,1.0和1.1两个版本的变化情况。既对比了带XMX单元的Arc A770,也对比了Intel CPU的Xe核显(基于DP4a)。内核优化造成的XeSS性能提升大约在5-10%之间,且目前还在做进一步的优化。

比较值得一提的是,有关XeSS技术更新方向的,Intel透露现在正在研究用XeSS去实现3倍放大——因为一般我们说的AI超分,普遍是2倍的分辨率upscale;如果3倍能够达到理想效果,无疑对入门级GPU而言更是福音——游戏玩家可以期待一下。

猜想以当前Arc游戏显卡的市场定位,3倍upscale也是弥补旗舰市场暂无产品跟进的有效举措。而且实际上就我们的观察来看,Q1’23 Arc Update驱动大版本更新过后,驱动能够为Alchemist这代GPU带来的图形渲染性能最大飞跃已经达成,后续很难再有如此惊艳的大跨步。那么在XeSS下功夫显然是个很明智的选择。

此外,我们知道XeSS在渲染管线上所处的位置,基本是替换TAA。Intel方面表示,正在研究是否可将某些post-processing的部分前移,换句话说,更多流程不需要以高分辨率渲染,则XeSS可达成更高的性能。

生态方面,XeSS最初发布之时,Intel宣布已支持的游戏有20+款;而目前支持XeSS的游戏已经达到了50+,一些知名的大作如上图所示,包括《霍格沃茨之遗》《赛博朋克2077》《巫师3重制版》等。XeSS的前行速度应该是比当年的DLSS刚推出时,生态扩展更快的。

活动现场,Intel给我们演示了《如龙:维新!极》《幽灵线东京》《HiFi RUSH》,包括还没上线的DirectX 12版本的《永劫无间》等几款游戏应用XeSS的帧率提升情况,大部分都有约50%的帧率提升。

中间件相关的,Intel这次特别提到了XeSS以插件的形式对Unreal Engine虚幻引擎提供支持。目前支持的版本主要包括Unreal Engine 4.26以上和Unreal 5(也通过代码补丁的方式支持了Unreal Engine 4.25)。而且在Unreal Engine本月更新5.2版后,Intel也率先宣布XeSS对此版本提供支持,早于竞争对手,可见Intel对于Arc生态的扩展还是相当积极的。

还有个补充信息和XeSS关系不大,是Intel目前正在重构DirectX 11的驱动,虽然本次媒体会上Intel只提了一句——实际去年8月份,Intel也在官方发布的Arc Graphics Q&A上确认了DX11相关工作在进行中。那么未来的驱动更新我们可能有机会再看到DX11游戏的性能飞跃,如同Q1’23那次主要针对DX9游戏那样。

 

如前所述,本次媒体会上Intel把比较多的介绍篇幅放在了内容创作、媒体引擎上。此前我们两次体验Intel显卡始终没有去谈媒体引擎部分。实际上,国外媒体先期评论里,普遍在夸的是Intel Arc显卡的媒体引擎彪悍;Linus Tech Tips甚至建议过,如果已经有英伟达GeForce显卡玩游戏的话,那么还可以考虑花较少成本买张Arc A380,专门用来搞媒体编解码——这个部分应当也是过去Intel核显技术积累的结果。

这代Arc显卡标注Xe媒体引擎的配置是“视频编解码器 x2”和“视频后处理器 x2”,虽然硅层面的微架构我们不甚了解,但绝大部分关注Arc显卡的同学应该都知道,Arc是较早实现AV1格式硬编解码的GPU,包括入门定位的Arc A380。

为了体现A380媒体内容创作的实力,Intel这次演示在一台设备上同时进行6路4k 60fps视频的编码与播放,外加2路4k 60fps的AV1视频转码。也就是说总共8路4k 60fps解码,2路4k 60fps编码。这个负载在Arc A380上跑,编解码引擎的硬件资源利用率大约在80%左右,还有余量。这还是体现了Arc显卡在codec堆料方面很充沛。

不过这次Intel主要谈的是驱动更新过后,内容创作的性能变化,对比的是2022年12月8日的驱动版本31.0.101.3959和目前最新的31.0.101.4369驱动。对比了下面这4个项目:

这项对比的是Pugetbench Davinci Resolve——视频编辑软件达芬奇的一个基准测试,测试的是Arc A750在新旧两版驱动下,不同测试项目的性能变化情况。从结果来看,新驱动比旧驱动的性能总体提升了33%:各分项有差异——PugetBench测试的分项涵盖了4K视频不同格式转码,包括镜头光晕、模糊、降噪等在内需要用到GPU通用加速的特效,以及3D字幕等合成工作。

这部分提升是通过OpenCL驱动优化达成的。3959→4369驱动变化过程里,Intel提到主要包括3个优化项目:(1)集中式缓存池。即驱动会维护一个缓存池,“这些缓存是准备好的”,“当应用要求小buffer时,可以直接从缓存池返回需求”,也就“减少了驱动开销”;(2)主存/显存拷贝,“应用经常会需要拷贝一些buffer到显存里”,如果拷贝小尺寸数据,“驱动准备GPU拷贝命令的时间,可能比真正执行拷贝的时间都要久。”“我们通过CPU map的方式来拷贝,极大降低了小尺寸buffer的显存拷贝开销。”

(3)资源延迟销毁。一般应用处理完一帧画面后,会将创建的资源销毁——通常这是个同步操作,即需要等GPU上次workload结束,才能执行销毁操作,“这就相当于把CPU阻塞了,CPU与GPU并行度降低”。所以这个优化方案是实现资源销毁的异步化,即在应用提交资源销毁请求时,驱动并不真正立即销毁资源,而是cache销毁请求——待“对应的GPU命令执行完以后,通知驱动真正销毁资源”,这也就提高了CPU与GPU的并行度。

这三点是在Pugetbench测试中,跑分提高的主要原因。

缩减驱动开销的另一个例子是通过“优化3D驱动”,来提升视频导出性能。这部分是基于复杂视频后期的导出,往往是需要编解码、3D引擎等一起工作的。驱动层面若能优化不同引擎之间的依赖管理,减少引擎间的“空等问题”,也就提升了视频导出效率。Intel表示,这部分的驱动优化,能够让视频导出时间减少10%。

上面的例子是以剪映来做对比的。实际Intel针对包括剪映专业版在内的不同应用,也特别做了一些优化。上图这个对比项目是给视频加大量特效以后去做导出,对比导出时间。值得一提的是,剪映作为最初应用于移动平台的app,选择的是OpenGL ES,在迁往桌面平台时技术栈也没换。但PC端没有原生的OpenGL ES驱动,所以剪映是基于Android框架将OpenGL ES转到D3D11。

“针对这样一个特别的软件,我们和剪映进行了密切合作。”将Arc GPU的内存压缩技术带到剪映的软件栈里面。“像剪映重特效的视频编辑,尤其是4k,访问显存的带宽压力还是非常大的。”所以在加入内存压缩特性之后,特效shader显存带宽压力就减小了,“shader性能提升了1倍左右”,“节省近40%的视频导出时间”。尤其Arc A380带来的性能收益更为显著。

还有个驱动优化的例子,在视频编辑方面带来的体验加成更大:藉由Arc GPU的视频后处理引擎,去加速达芬奇中的视频预览性能。Intel表示Arc GPU配备的2个专用视频后处理引擎,“天然适合视频预览加速”。

在达芬奇软件中进行8k视频预览时,新驱动就能用视频后处理器来加速。这张图对比了新旧驱动,8k 60fps两路8bit和一路10bit视频的实时预览帧数情况。较早的3959驱动是没有做加速的,而新版充分利用视频后处理引擎以后,预览明显变得流畅。现场演示看到两者的差别的确还是相当大。

其实从这个例子还是能够体现,驱动对于发挥芯片原有算力资源的价值的。而驱动更新,也的确是在一步步解锁Arc GPU原有的硬件属性。增加视频后处理引擎的视频回放预览加速,感觉其体验提升幅度无疑和图形渲染那边重构DX9驱动是类似的分量——不过这可能也反映了Arc早期驱动的发布,多少还是比较匆忙的。

 

最后值得一提的是,Intel这次也演示了Arc GPU的AI推理能力,用Arc A770藉由OpenVINO插件在GIMP中跑Stable Diffusion——且不说Stable Diffusion作为可自己部署的text-to-image的生成式AI,由于众所周知的原因受到玩家追捧;生成式AI原本就是如今的大热门。不过这次的演示比较简单,主要就是基于文字提示,5秒左右生成图片——没有横向对比。

有兴趣用Arc跑AI的同学,可以看一看Intel的官方指引。这大概算是个开始吧,毕竟Intel在XPU策略上的AI布局也是相当重要的环节,于图形卡的下放是必然。

而上面这些实则都是基于现有硬件基础,做软件和生态完善的结果。Intel现在似乎也挺热衷于生态发展的阶段性汇报,就像隔壁每届GTC的重点都在生态汇报及软件、库、中间件发展情况一样。

近未来,除了前文提到XeSS可能会有3倍超分,XeSS效率还会再做提升,以及DirectX 11 API相关的驱动部分在重构,我们应该有机会再次看到Arc显卡在驱动更新后的性能显著提升。Intel表示,像本次提到视频创作上取得的进展,“只是我们迈出的一小步,我们每个季度都会给大家带来一次惊喜”。看来软件和生态的威力,于GPU而言实在是不亚于芯片或板卡本身的存在。

文章来自:https://www.eet-china.com/

相关文章