NVIDIA专业卡Quadro FX5800性能评测
NVIDIA 的工作站显卡按照档次,可以依次分为 Ultra-High-End、High-End、Mid-Range、Entry-Level 四档,其中 Ultra-High-End 为最高基本,性能规格和功能特性都是同时代产品中最强悍的。
Quadro FX 3800 | Quadro FX 4600 | Quadro FX 4700 | Quadro FX 4800 | Quadro FX 5600 | Quadro FX 5800 | |
GPU 内存容量 | 1GB GDDR3 | 768MB GDDR3 | 1GB GDDR3 per GPU | 1.5GB GDDR3 | 1.5GB GDDR3 | 4GB GDDR3 |
内存界面 | 256-bit | 384-bit | 256-bit | 384-bit | 384-bit | 512-bit |
内存带宽 | 51.2 GB/s | 67.2 GB/sec | 51.2 GB/sec | 76.8 GB/sec | 76.8 GB/sec | 102 GB/sec |
CUDA SP数量 | 192 | 112 | 128 per GPU (共计 256) | 192 | 128 | 240 |
最大功耗 | 108W | 134W | 226W | 150W | 171W | 189W |
占用插槽数 | 1 | 2 | 2 | 2 | 2 | 2 |
显示连接界面 | DVI-I DP DP STEREO |
DVI-I DVI-I STEREO |
4 X DVI-I STEREO |
DVI-I DP DP STEREO |
DVI-I DVI-I STEREO |
DVI-I DVI-I DP STEREO |
Dual-Link DVI | 1 | 2 | 4 | 1 | 2 | 2 |
Single-link DVI-I | ||||||
DisplayPort | 2 | 2 | 1 | |||
OpenGL | 3.1 | 3.1 | 3.1 | 3.1 | 3.1 | 3.1 |
Shader Model | 4.0 | 4.0 | 4.0 | 4.0 | 4.0 | 4.0 |
DirectX | 10.0 | 10.0 | 10.0 | 10.0 | 10.0 | 10.0 |
CUDA | Yes | Yes | Yes | Yes | Yes | Yes |
NVIDIA SLI Multi-OS | Yes | Yes | Yes | |||
SLI Frame Rendering | Yes | Yes | Yes | Yes | Yes | Yes |
Genlock/Framelock | - | Yes | Yes | Yes | Yes | Yes |
可选Quadro SDI卡 | Yes | Yes | Yes | Yes | Yes | Yes |
可选G-Sync卡 | Yes | Yes | Yes | Yes | Yes | |
3D图元性能 | ||||||
每秒三角形处理能力 | 300 Million | 250 Million | 250 Million | 300 Million | 300 Million | 300 Million |
每秒纹理处理能力 | 38 Billion | 24 Billion | 32 Billion | 38.4 Billion | 38.4 Billion | 52 Billion |
NVIDIA 目前的 Ultra-High-End 产品有两款,分别是基于 G80 芯片的 Quadro FX 5600 以及基于 GT200 芯片的 Quadro FX 5800,而后者就是本文介绍的主角。
风鼓式散热器设计
支持 SLI 双卡并行和允许加插 SDI 视频捕捉、输出子卡
Quadro FX 5800 需要连接两个电源接口
分别是末端顶部的 6-pin 和末端后侧的 8-pin
Quadro FX 5800 和 Quadro FX 3800 使用的都是 GT200 芯片,但是后者的 TPC(纹理处理簇)并没有完全开放,只启用了其中的 24 个。此外,Quadro FX 3800 的内存总线位宽也都只有 256-bit。
在 GT200 架构中,每个 TPC 内包含有 24 个流处理器(stream processor,简称 SP),每 8 个 SP 组成一个 Streaming Multiprocessor(简称 SM)。
而 Quadro FX 5800 则是完全足本的规格,拥有 240 个单精度 SP,512-bit 内存总线,SP 在 3D 应用的时候频率为 1296MHz。
在不同的浮点运算指令组合下,Quadro FX 5800 理论单精度浮点性能为:
FMA+MUL:933.12 GFLOPS
FMA:622.08 GFLOPS
MUL:622.08 GFLOPS
ADD+MUL:622.08 GFLOPS
ADD:311.04 GFLOPS
Quadro FX 5800 也支持双精度浮点运算,但是由于是每 8 个单精度 SP 才搭配一个双精度 SP(这个双精度 SP 可以单周期执行一个 FMA指令),因此双精度性能只有单精度 FMA 的 1/8,即 77.76 GFLOPS,如果论FADD 或者 FMUL 时的双精度性能则是 38.88 GFLOPS。
与之对比,目前英特尔的 Core 2 i975 3.33GHz 的 FMUL+FADD、FMUL、FADD 指令双精度浮点运算性能均为 53.28GHz,同样指令下的单精度浮点运算性能均为 106.56 GFLOPS。
和其他 Quadro FX 显卡相比,Quadro FX 5800 的特别之处在于它能实现非常强大而完整的 work-flow(工作流)加速能力:支持几乎所有的工作站软件、捆绑了若干个针对常用软件的性能优化器、具备 4GB 大容量内存可以提供高速的大纹理支持和改善通用计算加速的本地内存容量约束问题。
你可以想象一下,在 Photoshop 里进行纹理创建和加工,然后把纹理应用到 3dsmax 中的场景里,接着渲染场景动画,在 Premiere Pro CS 中进行非线性编辑,而后把编辑好的序列导出为 h.264 压缩的视频或者动画,这一系列的过程都 Quadro FX 5800 都能为止提供相应的、不同程度的加速。
当然,这并不代表你不需要一个强力的处理器,对于工作站应用特别是高阶的应用,中央处理器越快总是越好的,Quadro FX 对这个 work-flow 的加速,更多的体现在中央处理器力不从心的地方,如此就能达到异构运算所提倡的互补增益效果。
Quadro FX 5800 的固定运算功能单元(例如纹理单元、三角形 Setup 引擎)频率为 612MHz,纹理填充速率填充速率为 73.44 GTexels/s,像素填充速率为 19.584 GPixels/s。
在 GT200 架构中,每个 TPC 内除了包含有 3个 运行于 1296MHz 的针对可编程运算的 SM 外,还有 32 个运行于 612MHz 的 8-bit 纹理单元。
需要注意的是,我们这里提到的频率是指全速模式下的规格,实际上Quadro FX 5800 的驱动程序会依据当前的负荷而自动调整运行频率,从而显著节省耗电和发热。不仅于此,NVIDIA 还在芯片电路效率上下了大量功夫,相对于 GT200 583 平方毫米的芯片面积和 14 亿晶体管,它的电力消耗表现其实相当出色的。
视频输出连接
惠普 DreamColor LP2480zx 支持 10-bit DisplayPort 输入
NVIDIA 开发者网站上的场景软件 NVSG 5.0 提供了 30-bit 显示支持
Quadro FX 5800 提供了两个 DVI-I、一个 DisplayPort、一个立体等多种输出接口,其中 DisplayPort 能提供每个色彩通道 10-bit 的颜色输出,例如在惠普的 DreamColor LP2480zx 显示器上,就能实现精确的同屏 30-bit (17 亿种,64 倍现有的 8-bit )色彩显示。
Quadro FX 5800 透过 SDI 子卡提供强大的动画布幕合成
不仅于此,Quadro FX 5800 还可以透过配装 SDI 子卡在 Adobe Premiere Pro、Adobe After Effects 等软件中实现向 SDI 显示器、SDI 磁带仓、SDI 投影机等专业广播设备输出无压缩(8-bit、10-bit、12-bit)的画面信号,用户藉此实现数字化的虚拟背景合成,例如体育比赛、天气报告的立体报幕、动画。
Quadro FX 5800 使用的 GPU GT200b-GL 其实就是从 GeForce GTX 285 的 GT200b 中经过特别筛选的,不仅芯片本身还有电路板以及配套的零件在电气特性上都有更严格的要求,在产品品质上更有保证。
按照 NVIDIA 的说法,Quadro FX 的产品生命周期长达 36 个月,这除了产品品质保证的基础,更重要的是 NVIDIA 长期以来在驱动程序、附加值软件以及与业界伙伴合作上的大力投入所达成的。
NVIDIA 在专业图形市场上历年以来的投入号称已经达到了一万五千人年,累计售出的 Quadro 专业卡超过 1500 万片,拥有 90% 的市场份额(包括 CAD/CAM、医疗设备、石油、数字内容创作和电视转播),有 300 位工程师专门为这个市场的应用程序配合,拥有非常丰富的整体解决方案经验。
在驱动程序上,NVIDIA 下了非常大的功夫,特别是兼容性稳定性方面有非常出色的表现,无论是 OpenGL、Direct3D 都能提供良好的支持,为 Quadro 度身定制的驱动程序版本还捆绑了一些针对 3dsmax 等软件的加速版驱动插件,这些都获得了业界软件商、整机厂商、系统集成商的广泛认证。
透过 PhysX DCC for 3dsmax 插件实现 PhysX 刚体碰撞物理模拟
透过 PhysX DCC for Maya 插件实现 PhysX 刚体碰撞物理模拟
NVIDIA 对业界软件的支持不仅仅体现在驱动认证、性能加速上,还有大量强大的开发工具与之配合,例如 PhysX DCC Plug-Ins,就是可以在 3dsmax、Maya、Softimage(其中 Softimage 本身已经捆绑了该插件)等重要三维创作软件中提供 PhysX 物理开发支持的插件。
单凭 NVIDIA 一家实现更多的 Quadro 附加值显然是不够的,NVIDIA 为业界提供了丰富的开发工具,例如 Cg、CUDA C 以及即将正式发布的 OpenCL、Compute Shader 等。
其中 CUDA C 作为今年来 NVIDIA 力推的 GPGPU 语言已经获得了业界的广泛的支持,大家可以看看下面这个长达 100 多页滚屏的连接,就可以了解 CUDA C 现在获得的支持是多么的蔚为壮观:
http://www.nvidia.com/content/cudazone/CUDABrowser/assets/data/applications.xml
Furry Ball GPUman For Maya
可以在 GeForce GTX 285 上用 2 秒的时间完成上面场景的渲染
按照 Furry Ball 于 Youtube 公布的视频
Quadro 可以达到游戏卡的 10 至 50 倍渲染速度
注意:大陆网友需要代理才能访问 Youtube
举个例子,上面的连接中有一个由 Furry Ball(毛毛球)公司推出的名为 GPUman(名字有点模仿 Renderman?)的渲染器,能够提供达到 300 倍于传统 CPU 渲染器(Renderman、MetalRay)的性能。
GPUMan 目前还是 1.0 beta 测试阶段,尚未正式发布,不过在其他的一些软件方面,就有已经有了商业上的正式版本,例如 Elemental 针对 Adobe Premiere Pro CS4 推出的 Elemental Accelerator H.264 视频编码器#p#page_title#e#
Elemental Accelerator 有一个同门产品,叫 Badaboom,两者的功能其实比较类似,所不同的是 Badaboom 针对的一般的数码电子消费者,目前的 Badaboom 1.2 只是提供了 main profile 支持,无法实现批处理。
而 Elemental Accelerator 则是针对 Adobe Premiere Pro CS 4 这个比较严谨的视频编缉软件的视频编码器,提供了更高效的 High Profile、2 Pass 编码以及透过 Adobe Media Encoder 外壳实现的批处理能力。
上图就是 Elemental 提供的 Elemental Accelerator 在 Adobe Premiere Pro CS4 中对整个 worlflow 的加速示意图,可以看出,涉及的加速过程包括了视频解码、画面处理以及视频编码这三部分。
Elemental Accelerator 目前针对 PC 的最新版本为 2.0,而 Mac 的版本为 1.2。
在安装的时候,Elemental Accelerator 会检测当前系统的软件和硬件配置,大家必须先更新 Adobe CS 的版本以及安装具备 Purevideo 2 视频处理器(G92-GL 以上级别的 Quadro FX 才具备)的专业显卡才能安装此软件。
在安装好 Elemental Accelerator 后,当然想尽快体验一下效果了。首先我们需要在 Premiere Pro CS4 中打开或者导入项目文件和视频,然后在选单中点选 File->Export,就能实现对 timeline 上的视频和音频导出。
在弹出的 Export 对话窗口中,点击 Export Setting 中的 Format 下拉选单,选中其中的 Elemental H.264,就可以调用 Elemental Accelerator 进行 H.264 视频编码加速了。
选择使用 Elemental Accelerator 后,大家可以作进一步的设置。Elemental Accelerator 本身提供了若干个预建的设置,不过用户本身也可以根据自己的情况建立最适合于自己的输出设置(见上图)。和针对消费类用的 Badaboom 相比,Elemental Accelerator 的可选设置显然高出一个级别。
透过 Adobe Media Encoder(安装 Premiere Pro CS 的时候是默认一起安装的),用户还能实现 Elemental Accelerator 的批处理 H.264 编码。
Adobe Media Encoder 的设置界面其实和 Premiere Pro CS4 的 Export 界面一样,有同样的选项设置。
使用 Core i7 920 2.67GHz,DDR3-1333 和 Quadro FX 5800 在 Adobe Media Encoder 透过 Elemental Accelerator 执行 H.264 视频编码时,会有一个逻辑处理器处于“常满”的运作状态,其余的逻辑处理器基本上只是偶尔动一下,用户此时还能轻松地执行其他任务。
上图就是我们分别采用Adobe Media Encoder + Elemental Accelerator 以及 Adobe Media Encoder 内建 h.264 编码器(这个内建编码器实际上是 Mainconcept 公司提供的) 进行转码获得的测试结果。
我们采用 SSIM 指数作为画面品质的评定指标,SSIM=1 表示和原画面别无二致,SSIM=0 表示和原画面完全不相干,SSIM 指数的可接受画面品质数值为 0.95,达到 0.95 我们才会认为及格,如果为 0.98 则表示达到可观赏级别。
在画面品质测试方面,Elemental Accelerator 基本上无法在 2Mbps 以下的码率获得 0.95 SSIM 指数,这意味着必须有 2Mbps 才能达到可以接受的画面品质。要达到和 Adobe Media Encoder 内建 h.264 编码器相当的画面品质,Elemental Accelerator 需要两倍的码率。
采用 2 Pass 模式进行视频编码并没有对此有显著的改善,只是稍微比 1Pass 有所提升,特别是低码率下。
如果从瑕疵量角度来看,Elemental Accelerator 1Pass 的瑕疵要比 AME 多出 65% 以上,采用 2Pass 后,瑕疵量在 500kbps 这样的低码率设定下比 1Pass 减少 19%。不过和 AME 1Pass 相比,Elemental Accelerator 2Pass 的瑕疵量仍然较多。
在速度方面,Elemental Accelerator 1Pass 在 4Mbps 下可以达到至少 4.2 倍的实时编码速率,但是 2Pass 下只能达到和和播放速度一样的编码速率,甚至不如 AME 内建编码器的速度。随着码率的增加,都会对这两个编码器产生影响
处理器 Core i7 920
主板 ASUS P6T
内存 3* 1GB DDR3-1333
硬盘 WD 猛禽 150GB
操作系统 Windows XP SP3 , Vista X64 SP2
显卡驱动 Forceware 182.46 for Quadro FX 3800
Forceware 186.30 for Quadro FX 5800
SPECopc 是 SPEC OpenGL Performance Characterization(SPEC OpenGL性能特性)项目组的简称,Viewperf(VPF)是该组织认可的第一个 OpenGL 测试软件,基于 SPECopc Viewperf 的测试成绩最早在 1994 年第四季度的《GPC季刊》上发表。
SPECopc 是 SPEC GPC(GPC 就是图形的下属组织,与它平行的还有 SPECapc,SPECapc 的测试是在实际专业软件上编写测试脚本,这些脚本有的是 VB 编写的,有些则是利用专业软件本身的脚本语言编写的。
SPECapc 的测试和 SPECopc 的 Viewper 测试不同的是,apc 的测试是希望尽可能地测试出图形偏重的软件的总体性能,而 opc 的测试是只考验专业软件的图形函数执行性能,消除了 apc 测试中专业软件在其他操作上的性能开销,而且由于不需要软件授权,因此使用上比较方便。
Viewperf 实际上是一系列由专业软件开发商自己按照 SPECopc 规范,从自己开发的软件中提取出来的测试包(被称作所谓 Viewset ),这些测试包包含了实际的场景模型、尽可能接近于实际软件的渲染参数(例如立即渲染模式或者显示指令表渲染模式、渲染图元形式等)。
以这样的方式设计测试项目,有利于让测试接近于实际软件的渲染特制,不过需要注意的是,Viewperf 毕竟是脱离原软件的测试,只是进行实时图形渲染部分的测试,而且为了突出图形偏重的环境,有些测试包采用了数倍于 SPECapc 的模型来加重图形渲染得负荷,因此测试出来的结果更多的是反映纯粹的图形性能。
Viewperf 10.0 是 SPECopc 去年发布的大型 3D 图形测试工具,Windows 版安装包的大小为 616 MB,包含了 32-bit 和 64-bit 版本,内含源代码。
在这个测试工具中,包含了 3dsmax-04、catia-02、ensight-03、maya-02、proe-04、sw-01、tvis-01、ugnx-01,分别对应 3dsmax、CATIA、EnSight、Maya、Pro/Engineer、Solidworks、UGS Teamcenter Visualization Mockup、UGS NX 等多个应用软件的对应测试项目。
#p#page_title#e#
实际应用程序测试
我们采用了SPECapc的3dsmax9、Maya 6.5、NX4、SolidEdge V19、Solidworks 2007、Pro/E Wildfire 2.0、Lightwave 9.6 以及 Cadalyst Labs 的 AutoCAD 测试脚本(2008版)来测试对应的程序,测试结果如下,得分越高,代表性能越快,由于我们这次测试的主要是图形性能,因此大家在这里主要看的应该是 Graphis 或者 GFX 部分的得分
总结
在类似的规格和特性下,专业卡的价格数倍于游戏卡,一般的用户难以明了两者的实际区别,对这些用户来说,他们有必要了解专业卡的价格并非单凭以硬件成本来确定的,还有非常重要的技术支持以及与之配套的一系列软件解决方案。
同样,专业卡是为了满足专业用户在创作的时候不仅拥有强劲的性能,还必须确保屏幕上展现的线条、轮廓、交互界面拥有高度的精确性,与之相比,游戏卡的驱动更强调的是速度,无法满足专业应用特别是 CAD、CAM 所需的精确度。
NVIDIA 在专业卡产品线上投入的大量的人力物力,从 Quadro 问世至今,差不多有 8 年时间,Quadro FX 5800 就是 NVIDIA 集这多年功力的代表性产品。
Quadro FX 5800 作为目前 NVIDIA 最顶尖的专业卡产品(当然,这里所的最顶尖并没有包括 Quadro Plex 这样的外置式专业卡),拥有强大的三维、通用计算处理能力,高达 4GB 的板载内存能应付目前几乎所有的图形应用场合以及相当部分的通用计算场合。
在最常见的 Autodesk 软件例如 AutoCAD、3dsmax 中 NVIDIA 提供了定制的性能强化驱动,在 Softimage、3dsmax、Maya 中,NVIDIA 提供了 PhysX 插件实现更强大的物理计算。此外,Quadro FX 5800 还支持 30-bit 色彩、Quadro SDI 子卡、SLI Multi-OS 实现单机多卡多系统虚拟机 3D 硬件加速等等。
毫无疑问,Quadro FX 5800 是拥有目前最完备的软硬件配合、最完整的工作流支持、业界支持最得力的专业图形解决方案,对于高端用户来说,目前是不可能找到能与之匹敌的产品。