您的位置：UltraLAB图形工作站方案网站 > 人工智能 > 深度学习 > 浮点运算谁最强，FireStream 9250、GTX280、CSX700对比分析

浮点运算谁最强，FireStream 9250、GTX280、CSX700对比分析

时间：2009-05-31 22:51:00 来源：UltraLAB图形工作站方案网站 人气：20329 作者：admin

第01页：AMD/NV新产品发布 GPU浮点运算能力成焦点

随着AMD、NVIDIA都相继推出浮点运算能力超过1TFlops的新品，处理器的浮点运算能力近期成了热议的话题。浮点运算能力实际上一直都是处理器一个很重要的指标，在科学计算方面的能力就关键取决于处理器的浮点运算能力。

前一段时间，网络上出现了AMD即将发布的新产品RV770官方资料文档，文档中提到RV770两款产品浮点运算能力都超过1TFlops，HD4850的单精度浮点运算能力达到了1TFlops，而高频版的HD4870单精度浮点处理能力更是高达1.2Tflops。

480SP是烟雾弹!RV770拥有800流处理器

注意看HD4870介绍文档的最后一行

随后，AMD发布了新一代流处理卡FireStream 9250，由于该卡基于RV770核心，凭借着800个流处理器的计算能力，该卡浮点处理能力也非常高，超过了1TFlops。

再来看看NVIDIA，本月16日刚刚正式发布了全新核心G200，流处理器数量达到了240个，每个流处理器在单位时间内可以处理3条指令，这样在Shader频率为1400MHz的情况下，浮点能力就可以超过1TFlops，不过遗憾的是最高端的GTX 280 Shader频率也不过1300MHz，浮点处理能力只有933GFlops，没有超过1TFlops。

开创视觉计算帝国GTX280/260权威评测

索泰推出了全球首款浮点能力超1TFlops的GTX 280显卡

NVIDIA之所以没有在GTX 280这款显卡上突破1TFlops的浮点处理能力，主要是因为显卡的发热量以及功耗已经很难控制，今后可能通过提升工艺以及其他一些方法实现。不过显卡厂商索泰推出了一款超频版的GTX 280，Shader频率设定到了1400MHz，浮点处理能力也就自然超过了1TFlops。

这里出现了一个问题，为什么索泰的GTX 280就可以将Shader频率超到1400MHz，而NVIDIA却不可以。据笔者猜测，NVIDIA首先是为了控制功耗与发热量，因为对于G200这种重量级产品来说，功耗与发热量如果太大，媒体宣传起来就让NVIDIA很没面子；第二大家都知道索泰是全球最大代工厂栢能旗下的自有显卡品牌，栢能可能专门挑出了一批体质较好的G200核心，将其频率适当提高，这样显卡的稳定性得以了很大的保障。#p#page_title#e#
第02页：Tesla S1070发布单精度浮点能力超4TFlops可以看出，G200的浮点处理能力还是很强的，只要稍微超频，就可以使其突破1TFlops大关，索泰推出超频版GTX 280的意义也就在此。虽然公版GTX 280没有突破1TFlops浮点运算能力，但是NVIDIA推出的另一款科学计算专用产品——Tesla S1070却达到了。

4核Tesla显存达16G浮点处理能力超4T

Tesla S1070

Tesla S1070是一个整套的科学计算解决方案，简单点说就是一台高性能的工作站。Tesla S1070里拥有4颗G200 GPU，每颗GPU的Shader频率达到了1500MHz，根据“流处理器数量×每个流处理器同时执行的命令数×流处理器频率=浮点处理能力”的公式来计算，拥有240个流处理器且每个流处理器同时能执行3条指令的G200 GPU，在频率达到1500MHz的情况下，单精度浮点能力可以达到1080GFlops，超过了1TFlops，4颗GPU同时运算时单精度浮点能力可超过4TFlops。

4核Tesla显存达16G浮点处理能力超4T

从外观上看酷似一台1U服务器

那么NVIDIA为什么在公版的GTX 280上就没能突破1TFlops，而在Tesla S1070则可实现呢？实际上理解起来很简单，Tesla S1070是在一个整套的科学计算解决方案，有一个独立的机箱，外观上看实际上就是一个1U的服务器，只要在机箱内空间允许的情况下，NVIDIA可以随意使用散热设备，况且这样的产品定价肯定不低，即使用全球最顶级的散热设备，NVIDIA也能有可观的利润。，所以说，NVIDIA在这套设备上是根本不怕发热量以及功耗的。

4核Tesla显存达16G浮点处理能力超4T

Tesla C1060

当然，NVIDIA还推出了另一款Tesla系列科学计算卡，型号为Tesla C1060，由于这个是像GTX 280一样以独立卡的形式出现，所以情况就和GTX 280很相似了，为了保证发热量、功耗以及成本，Shader频率没有突破1400MHz，浮点运算能力自然也就没有突破1TFlops。#p#page_title#e#
第03页：CSX700双精度浮点能力高达96G！功耗仅12W虽然说NVIDIA与AMD都突破了1TFlops的浮点运算能力，但是这里我们说的都是单精度（FP32）运算能力。不过在双精度浮点处理能力方面，还是比较弱。Tesla S1070单颗GPU单精度浮点处理能力虽然超过了1T，但是双精度浮点能力只能达到100GFlops左右，约为单精度浮点运算能力的1/10；AMD的FireStream 9250稍微好点，效率能达到Tesla S1070的两倍，双精度浮点能力能达到200GFlops。

可以看出，双精度浮点运算在GPU上效率还非常低。而日前Clearspeed发布了一款最新的处理器，双精度浮点运算能力达到了96GFlops，最令人惊奇的是这款处理器在工作时功耗仅仅为12W；而AMD的FireStream 9250虽然能达到200GFlops的浮点运算能力，功耗却高达150W；NVIDIA表现则更差，Tesla S1070单颗GPU的双精度浮点运算能力仅仅为100GFlops，功耗却高达170W。

到底谁最强？处理器浮点运算能力大PK

Clearspeed发布的这款处理器型号为CSX700，该款处理器代号“Callanish”(苏格兰巨石阵)，采用90nm工艺生产，拥有2×96个处理核心，频率250MHz，集成256KB SRAM、纠错硬件模块、DDR2内存控制器和PCI-E界面。

到底谁最强？处理器浮点运算能力大PK

CATS-700

采用CSX700处理器的有两款加速卡，型号分别为Advance e710与Advance e720（点击型号下载产品介绍PDF），两款产品为了适应不同的用途形式有所不同，但规格是一致的，都拥有2GB的RAM，处理器都采用的CSX700。除了这两款加速卡之外，还有一款1U刀片服务器系统——CATS-700（点击型号下载产品介绍PDF），该系统拥有12个e710加速卡，24G的存储系统，合计双精度浮点性能高达1.152TFLops。#p#page_title#e#
第04页：延伸阅读：看看世界十大超级计算机浮点性每年都会有最新的世界超级计算机500强统计出炉，最近一次的统计是去年9月份，笔者这里得到了一份去年9月份统计的全球最快的10大超级计算机资料，如下表

：

到底谁最强？处理器浮点运算能力大PK

从最新统计的这个全球超级计算机Top10中可以看出，蓝色巨人IBM霸占了第一名与第二名的位置。安装在美国能源部劳伦斯-利弗摩尔国家实验室（LLNL）的IBM蓝色基因/L系统已经连续4年稳居第一名的位置了，不过相对前一次统计，这套系统的计算能力又提升了不少，从之前的280TFlops提升到了478.2TFlops，拥有212992颗处理器，看来IBM在去年为这套全球最牛超级计算机进行过大幅度升级；

第二名也是IBM推出的产品——蓝色基因/P系统，这是IBM去年刚刚打造的一部超级计算机，安装在德国的某个地方，具体地名笔者还没看懂！这套系统拥有62536个处理器，浮点处理能力达167.3TFlops；

第三名是SGI公司推出的SGI Altix ICE 8200，安装在美国新墨西哥州计算应用中心（NMCAC），拥有14336个处理器，浮点运算能力为126.9TFlops；

第四名来自惠普，这台超级计算机被安装在印度，拥有14240个处理器，浮点处理能力为117.9Tflops；

第五名也是来自惠普，安装地点在瑞典，拥有13728个处理器，浮点处理能力为102.8TFlops；

第六名的Red Storm Cray XT3来自Sandia/Cray，拥有26569个处理器，浮点处理能力为102.2TFlops；

第七名Cray的一套系统，安装在美国，拥有23016个处理器，浮点处理能力为101.7TFlops；

第八名又是来自IBM的产品，系统安装在美国华盛顿，拥有40960个处理器，浮点能力最高可达91.3TFlops；

第九名是Cray的一套系统，拥有19320个处理器，浮点处理能力为85.4TFlops，这部超级计算机在美国；

第十名是又是IBM 蓝色基因系列的一套产品，拥有36864颗处理器，浮点运算能力达82.2TFlops。

实际上，在超级计算机市场上，行业巨头的竞争也同样非常激烈，每一年这个表格都有很大的变化，这里给大家提供一个去年上半年统计的全球超级计算机TOP10，与上图对比你就大概知道竞争有多激烈了（如下表）：

到底谁最强？处理器浮点运算能力大PK