在众所周知的原因推动下,想要以理想的价格买到geforce rtx 4090已然不太现实,所幸黄氏刀法着实精准,用geforce rtx 4090 d实现了合规与性能之间的新平衡点。并且由于没有founders edition版本,国内发售的重任落到了几家aic品牌上,作为nvidia好基友的索泰自然是其中之一。
手握geforce rtx 4090 d gpu的索泰自然不会闲着,索泰geforce rtx 4090 d pgf、索泰geforce rtx 4090 d amp airo、索泰geforce rtx 4090 d天启、索泰geforce rtx 4090 d trinity 月白上齐一套,其中索泰geforce rtx 4090 d trinity 月白不仅上架电商,在众友商定价中,也是颇具性价比的一款。
那么geforce rtx 4090 d的表现究竟如何?评测就此奉上。
ad102的新篇章
与geforce rtx 4090所使用的ad102-300-a1不同,索泰geforce rtx 4090 d trinity 月白采用的gpu型号为ad102-250-a1。两款gpu均源自相同的ad102,并以此为基础向下屏蔽单元,实现不同的性能定位。
从整体上看,完整的ad102包含了12个图形处理集群(graphics processing clusters,gpc),72个纹理处理簇(texture processing clusters,tpc),144个流式多处理器(streaming multiprocessors,sm),以及搭配了12个32-bit控制器的显存接口,共计384-bit。
同时每个gpc独立使用1个光栅引擎(raster engine,re),6个tpc,2个光栅处理分区(raster operations partitions)。其中每个光栅处理分区包含8个光栅处理单元(raster operations,rop),因此总共16个rop。
每个tpc下包含2个流式多处理器(streaming multiprocessors,sm)。从maxwell架构开始,sm之下细分出了处理块(sub-core)概念,ad102中每个sm包含4个处理块,每个处理块包含1个64kb寄存器堆,1个l0指令缓存,1个warp调度器,1个调度单元,4个加载/存储单元,1个特殊功能单元(special function unit,sfu)用于执行超越函数指令(比如正弦、余弦、倒数、平方根等)和图形差值算法指令。包含16个专门用于fp32的cuda core,16个可以在fp32和int32之间切换的cuda core,因此共计32个cuda。
此外每个sm还包含1个第三代rt core,4个第四代tensor core,4个纹理单元(texture units),256kb寄存器堆,以及可根据需求进行配置的128kb l1共享缓存。
有意思的是,你会发现无论geforce rtx 4090还是geforce rtx 4090 d其实都没有用到完整的ad102核心,而是通过禁用gpc或者tpc的数量从而实现不同的定位。而geforce rtx 4090 d相当于在geforce rtx 4090的基础上再屏蔽1组gpc实现。
因此索泰geforce rtx 4090 d trinity 月白总共包含57个tpc,114个sm,14592个cuda core,456个第四代tensor core,114个第三代rt core。大致对比如下:
可以看到在显存配置和gpu频率上,geforce rtx 4090 d没有做出删减,同样保持了24gb gddr6x 384-bit显存,等效21gbps频率,1008gb/s的显存带宽。另外l2缓存容量也维持在了72mb,gpu频率2.52ghz。大容量显存和l2缓存的配置,都仍然能够给后续的游戏,特别是ai加速性能提供优秀的基础。
在72mb超大l2缓存的加持下,第三代rt core和第四代tenor core作为提升游戏特效性能的主力也有了更多的用武之地。其中,第三代rt core不仅可以通过l2缓存在路径追踪从中获得巨大收益,本身相对第二代rt core也提升了射线/三角形求交测试吞吐量,并引入透明度微图引擎(opacity micro-map,omm)和位移式微型网面引擎(displaced micro-mesh,dmm)。
第四代tenor core则是当下火热的dlss 3以及开始普及的dlss 3.5的重要组成部分。这是一套利用光流加速器实现像素级的测量,并通过云端的夜以继日的寻找提升高质量图像的途径,这使得gpu摆脱了渲染重建高分辨率方法,让渲染工作大幅度减少,以两帧为例,dlss 3会承担起第一帧的3/4的工作和第二帧的所有工作,实际上gpu只需要完成其中的1/8的渲染即可,从而节省了大量的计算资源。
而接下来的dlss 3.5则能同时包含dlss帧生成(fg)与光线重建(rr, ray reconstruction)技术搭配,再加上超分辨率(super resolution)、dlaa、帧生成(frame generation)多种技术融合。最终构建出一套高效的运行方式,但所有的前提都依靠第四代tenor core和光流加速器配合实现的。
此外,索泰geforce rtx 4090 d trinity 月白还包括第八代nvenc和第五代nvdec编解码器对媒体提供支持,从而在诸如av1编解码加速上获得更好的体验。
全副武装的trinity
让我们把焦点放回显卡本身,索泰geforce rtx 4090 d trinity提供了月白和黑色两种颜色可选,在散热上主要选择了icestorm 3.0散热系统,优化了空气散热效能,并支持spectra 2.0 argb灯效。
其中icestorm 3.0散热系统提升了散热效能,提供了3个110mm的盾鳞2.0风扇,在提升扇叶面积的同时,也优化了每一片扇叶的曲率和鳞状仿生条纹,从而实现提升风扇风量、风压和风流的效果。
风扇下方提供了一块大面积vc均热板覆盖gpu核心,以实现快速导热至热管阵列。表面抛光工艺可进一步减少与gpu接触间隙,使导热效率更高。而显卡本身的厚度也达到了3.5个槽位,原因在于内置加厚、加高的镀镍散热鳍片模组,从而实现更好的导热能力。
另外热管部分也进行了升级,增加热管壁厚度和内壁脉络状导液沟槽,升级替换更高导热系数的导热介质,加大冷凝液与热管内壁接触面积的同时,进一步加快冷凝液导热循环。
索泰采用的背板、散热器多点分布安装的方式,让结构得以加强。并使用了铝合金加固骨骼结构件形式,确保pcb均匀受力,减少弯曲。另外合金背板本身也提升了显卡的静电防护能力。
gpu背面则使用了加固和背板裸露的形式,科技感拉满。同时支架没有上保修贴,也方便显卡后期的改装。
因此在压力测试下,索泰geforce rtx 4090 d trinity 月白的gpu可以保持再65℃左右的清凉状态。如果用红外线检测,在室温22℃的环境中,也可以看到整张显卡的发热量不高,长时间高负荷工作是没有问题的。
spectra 2.0 argb灯效系统本身支持1600万色argb和多种灯效模式,并且可以通过软件调节变换预设灯效。
有意思的是,在索泰geforce rtx 4090 d trinity 月白电源后方还提供了一个5v 3pin的rgb接口,还可以给通过显卡制造rgb同步效果,做到在游戏中即刻感受到随时变换的rgb氛围。
在周边配件上,索泰geforce rtx 4090 d trinity 月白则显得比较简约,包括纸质说明文档、1个二次元立牌,1个显卡支架和1根rgb同步线,以及1根16pin(12vhpwr)转8pin x4的电源线。
除了使用16pin(12vhpwr)电源口,显示接口包括3个displayport 1.4a和1个hdmi 2.1接口。
实践见真章
现在让我们进入实战环节。测试平台包括了core i9-14900k、rog maximus z790 dark hero、g.skill trident z5 ddr5-7200 16gbx2,并配以1250w电源作为支持。
在基础性能测试中,主要参考检测directx 11和directx 12性能的3dmark time spy,3dmark time spy extreme,3dmark fire strike extreme,3dmark fire strike ultra,port royal。能顾看到索泰geforce rtx 4090 d trinity 月白表现是非常强劲的,相对rtx 4080 super可以有20%乃至30%的性能提升,距离rtx 4090只有3%到6%的差距。
在常规的dlss 2游戏中,索泰geforce rtx 4090 d trinity 月白自然也表现出了强劲的战斗力,在4k分辨率最高画质并且开启光线追踪的前提下,提升超过30%以上。相对rtx 3080 ti性能则超过110%乃至更多了。
前面提到,geforce rtx 40系列带来的dlss 3和dlss 3.5技术才是将游戏体验拉开差距的一套算法。如果用3dmark dlss 3 feature作为比较,就会看到明显的提升差距,索泰geforce rtx 4090 d trinity 月白表现非常突出,在8k分辨率下也能轻松达到97fps以上,这是绝大多数gpu不敢想象的。
因此在dlss 3游戏中,索泰geforce rtx 4090 d trinity 月白的战斗力立马就展现出来了,相对rtx 4080 super提升有35%到40%,而相对rtx 3080 ti提升120%以上,最高可以超过300%。
同时dlss 3.5也带来了更好的画质表现,得益于光线重建(rr, ray reconstruction)加入,游戏画面得到更明显的提升。比如在《赛博朋克2077》画面进行对比,无论是车灯在地面的漫反射,还是远处的霓虹灯光,在dlss 3.5光线重建加持下获得更为自然的效果,重点这是在获得更高帧率前提下实现的。
另外索泰geforce rtx 4090 d trinity 月白带来的dlss 3本身也融合了reflex技术,可以更有效的降低游戏时候的系统响应延迟。比如在1080p分辨率下,索泰geforce rtx 4090 d trinity 月白能够让《cs2》、《apex英雄》等竞技游戏获得远高于显示器刷新率的帧率同时,还将系统延迟降低到10ms以下,这也是geforce rtx 40的传统艺能了。
ai与创作一把手
毋庸置疑,了24gb gddr6x 384-bit显存的索泰geforce rtx 4090 d trinity 月白厉害的地方还在于内容创作和生成式ai上的表现。例如近段时间火热的stable diffusion xl本身运行需要依靠transformer变换器和卷积神经网络实现,这两者均需要gpu进行大规模并行计算,这无疑是nvidia最擅长的事情。也正因为如此,近几年ai的飞速发展,很大程度上就是nvidia gpu技术发展所推进的。
其中stable diffusion xl在模型体量上相当stable diffusion 1.5扩大了3倍,从而导致计算的数据量提升,但也带来了更好的画质。这里以stable diffusion web ui tensorrt进行配置,用更短的语言描述生成10张分辨率为768x768的星际航行图片,每次运算1张图片,即总共执行10次,采样步数设置为50。
文字描述部分为:epic space battle over a water planet, many ships, cinematic lighting, depth of field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting。通过记录时间,推算出每分钟推算图片效率,参考公式为60 / (totaltime / (batchsize * batchcount)) = images per minute。
得益于更大的内存,索泰geforce rtx 4090 d trinity 月白领先幅度是其他gpu无法比拟的,哪怕是rtx 4080 super也能有翻倍的提升,并且与rtx 4090相当接近。
而就在最近,ul benchmark旗下的procyon正式在ai image generation benchmark子项中加入了stable diffusion 1.5和stable diffusion xl支持,测试过程有效避免了初次运行时的数据干扰,让实际测试性能变得更具有参考性。
可以看到索泰geforce rtx 4090 d trinity 月白在ai image generation benchmark的stable diffusion 1.5和stable diffusion xl基准测试下,战斗力是非常惊人的。stable diffusion 1.5(fp16)可以做到1.299s/image,stable diffusion xl(fp16)则可以做到11.535s/image,也就是在短短数秒内就可以完成一张文生图,并且整体评分与rtx 4090差距不大,同时比rtx 4080 super,rtx 4070 ti super都拉出了明显的距离。
同样,dlss 3.5也已经作为ai加速部分应用于专业软件中,d5渲染器已经率先展开了支持。dlss 3.5在d5渲染器中比dlss 3多出了5倍的训练量,因此也可以更好的识别光线追踪效果,在时间、空间数据中做出更合理的判断,从而实现高效率的扩展。
这里不妨让我们做一下效果对比,窗户上的光斑自然度,以及噪点控制,dlss 3.5下都给予了更好的画质。
同时dlss 3.5也给d5渲染器带来了更流畅的帧率。索泰geforce rtx 4090 d trinity 月白可以轻松在复杂的建筑场景中以高于75fps的帧率运行。这意味着就算是高负荷的渲染场景,索泰geforce rtx 4090 d trinity 月白也能给予类似于游戏的顺畅感。
ai加速的另一个应用是利用on1 resize ai 2022对图片分辨率进行提升,这里使用五个场景进行测试并记录平均时间。也可以看到索泰geforce rtx 4090 d trinity 月白节省了更多的ai推算时间,比rtx 4080 super快上12%左右。
然后是传统的内容创作环节。blender benchmark引入的moster、junkshop、classroom三个参考场景中,索泰geforce rtx 4090 d trinity 月白可以相对rtx 4080 super提升20%到30%。
同样在v-ray 5 benchmark中,分别对cuda core和rtx进行检测,借助更多的cuda core数量,索泰geforce rtx 4090 d trinity 月白的领先幅度也近乎是翻倍的。
octane render rtx则是用来测试gpu的光线追踪性能表现,在复杂场景下考验gpu每秒产生的样本率,索泰geforce rtx 4090 d trinity 月白相对rtx 4080 super的领先幅度也达到了30%。
specviewperf用来考验opengl和direct x api的3d图形性能,测试场景包括3dsmax、catia、creo、energy、maya、medical、snx、solidworks。索泰geforce rtx 4090 d trinity 月白已经能够轻松应付所有专业软件的运行,大显存和海量cuda起到了绝对性的优势。
写在最后:旗舰级优选
凭借着强劲的性能,索泰geforce rtx 4090 d trinity 月白给人留下了颇为深刻的印象。特别是在rtx 4090难以购买的现况下,索泰geforce rtx 4090 d trinity 月白已经能够很好的充当替代品,虽然在理论数据上相差在3%到6%之间,但从实际的游戏、ai创作感受来看,体感差别不大。
重点在于,索泰geforce rtx 4090 d trinity 月白并没有在技术上做任何删减,同样是基于性能金字塔顶端的ada lovelace的ad102 gpu打造,支持最新的dlss 3.5和更高效能的路径追踪特效,超大的显存不做任何删减,维持住了最高水平的单卡ai性能,甚至实际功耗还要比rtx 4090低一些。
同时索泰一如既往优质的做工让索泰geforce rtx 4090 d trinity 月白的散热表现、个性化都表现的非常出色,并且在一众rtx 4090 d中维持着较低的售价,比较之下,性价比已然凸显。如果你是一个性能控、ai重度用户、影音工作者,不要犹豫,索泰geforce rtx 4090 d trinity 月白就是很好的选择之一,特别是搭配core i9-14900k,大容量ddr5内存,配合4tb ssd以上存储空间,想必也会成为每一个电竞男生今年的终极梦想。
特别是在未来新品更新还有很长一段时间,价格日趋稳定的情况下,一步到位上到顶配,兴许才是最具性价比的kb88凯时官网登录的解决方案之一。如果你已经攒好了钱,那么不必由于,在rtx 4090 d中,索泰geforce rtx 4090 d trinity 月白确实是非常值得考虑的那一款。