浮点运算谁最强,FireStream 9250、GTX280、CSX700对比分析
随着AMD、NVIDIA都相继推出浮点运算能力超过1TFlops的新品,处理器的浮点运算能力近期成了热议的 话题。浮点运算能力实际上一直都是处理器一个很重要的指标,在科学计算方面的能力就关键取决于处理器的浮点运算能力。
前一段时间,网络上出现了AMD即将发布的新产品RV770官方资料文档,文档中提到RV770两款产品浮点运算能力都超过1TFlops,HD4850的单精度浮点运算能力达到了1TFlops,而高频版的HD4870单精度浮点处理能力更是高达1.2Tflops。
注意看HD4870介绍文档的最后一行
随后,AMD发布了新一代流处理卡FireStream 9250,由于该卡基于RV770核心,凭借着800个流处理器的计算能力,该卡浮点处理能力也非常高,超过了1TFlops。
再来看看NVIDIA,本月16日刚刚正式发布了全新核心G200,流处理器数量达到了240个,每个流处理器在单位时间内可以处理3条指令,这样在Shader频率为1400MHz的情况下,浮点能力就可以超过1TFlops,不过遗憾的是最高端的GTX 280 Shader频率也不过1300MHz,浮点处理能力只有933GFlops,没有超过1TFlops。
索泰推出了全球首款浮点能力超1TFlops的GTX 280显卡
NVIDIA之所以没有在GTX 280这款显卡上突破1TFlops的浮点处理能力,主要是因为显卡的发热量以及功耗已经很难控制,今后可能通过提升工艺以及其他一些方法实现。不过显卡厂商索泰推出了一款超频版的GTX 280,Shader频率设定到了1400MHz,浮点处理能力也就自然超过了1TFlops。
这里出现了一个问题,为什么索泰的GTX 280就可以将Shader频率超到1400MHz,而NVIDIA却不可以。据笔者猜测,NVIDIA首先是为了控制功耗与发热量,因为对于G200这种重量级产品来说,功耗与发热量如果太大,媒体宣传起来就让NVIDIA很没面子;第二大家都知道索泰是全球最大代工厂栢能旗下的自有显卡品牌,栢能可能专门挑出了一批体质较好的G200核心,将其频率适当提高,这样显卡的稳定性得以了很大的保障。#p#page_title#e#
第02页:Tesla S1070发布 单精度浮点能力超4TFlops可以看出,G200的浮点处理能力还是很强的,只要稍微超频,就可以使其突破1TFlops大关,索泰推出超频版GTX 280的意义也就在此。虽然公版GTX 280没有突破1TFlops浮点运算能力,但是NVIDIA推出的另一款科学计算专用产品——Tesla S1070却达到了。
Tesla S1070
Tesla S1070是一个整套的科学计算解决方案,简单点说就是一台高性能的工作站。Tesla S1070里拥有4颗G200 GPU,每颗GPU的Shader频率达到了1500MHz,根据“流处理器数量×每个流处理器同时执行的命令数×流处理器频率=浮点处理能力”的公式来计算,拥有240个流处理器且每个流处理器同时能执行3条指令的G200 GPU,在频率达到1500MHz的情况下,单精度浮点能力可以达到1080GFlops,超过了1TFlops,4颗GPU同时运算时单精度浮点能力可超过4TFlops。
从外观上看酷似一台1U服务器
那么NVIDIA为什么在公版的GTX 280上就没能突破1TFlops,而在Tesla S1070则可实现呢?实际上理解起来很简单,Tesla S1070是在一个整套的科学计算解决方案,有一个独立的机箱,外观上看实际上就是一个1U的服务器,只要在机箱内空间允许的情况下,NVIDIA可以随意使用散热设备,况且这样的产品定价肯定不低,即使用全球最顶级的散热设备,NVIDIA也能有可观的利润。,所以说,NVIDIA在这套设备上是根本不怕发热量以及功耗的。
Tesla C1060
当然,NVIDIA还推出了另一款Tesla系列科学计算卡,型号为Tesla C1060,由于这个是像GTX 280一样以独立卡的形式出现,所以情况就和GTX 280很相似了,为了保证发热量、功耗以及成本,Shader频率没有突破1400MHz,浮点运算能力自然也就没有突破1TFlops。#p#page_title#e#
第03页:CSX700双精度浮点能力高达96G!功耗仅12W虽然说NVIDIA与AMD都突破了1TFlops的浮点运算能力,但是这里我们说的都是单精度(FP32)运算能力。不过在双精度浮点处理能力方面,还是比较弱。Tesla S1070单颗GPU单精度浮点处理能力虽然超过了1T,但是双精度浮点能力只能达到100GFlops左右,约为单精度浮点运算能力的1/10;AMD的FireStream 9250稍微好点,效率能达到Tesla S1070的两倍,双精度浮点能力能达到200GFlops。
可以看出,双精度浮点运算在GPU上效率还非常低。而日前Clearspeed发布了一款最新的处理器,双精度浮点运算能力达到了96GFlops,最令人惊奇的是这款处理器在工作时功耗仅仅为12W;而AMD的FireStream 9250虽然能达到200GFlops的浮点运算能力,功耗却高达150W;NVIDIA表现则更差,Tesla S1070单颗GPU的双精度浮点运算能力仅仅为100GFlops,功耗却高达170W。
Clearspeed发布的这款处理器型号为CSX700,该款处理器代号“Callanish”(苏格兰巨石阵),采用90nm工艺生产,拥有2×96个处理核心,频率250MHz,集成256KB SRAM、纠错硬件模块、DDR2内存控制器和PCI-E界面。
CATS-700
采用CSX700处理器的有两款加速卡,型号分别为Advance e710与Advance e720(点击型号下载产品介绍PDF),两款产品为了适应不同的用途形式有所不同,但规格是一致的,都拥有2GB的RAM,处理器都采用的CSX700。除了这两款加速卡之外,还有一款1U刀片服务器系统——CATS-700(点击型号下载产品介绍PDF),该系统拥有12个e710加速卡,24G的存储系统,合计双精度浮点性能高达1.152TFLops。#p#page_title#e#
第04页:延伸阅读:看看世界十大超级计算机浮点性每年都会有最新的世界超级计算机500强统计出炉,最近一次的统计是去年9月份,笔者这里得到了一份去年9月份统计的全球最快的10大超级计算机资料,如下表
从最新统计的这个全球超级计算机Top10中可以看出,蓝色巨人IBM霸占了第一名与第二名的位置。安装在美国能源部劳伦斯-利弗摩尔国家实验室(LLNL)的IBM蓝色基因/L系统已经连续4年稳居第一名的位置了,不过相对前一次统计,这套系统的计算能力又提升了不少,从之前的280TFlops提升到了478.2TFlops,拥有212992颗处理器,看来IBM在去年为这套全球最牛超级计算机进行过大幅度升级;
第二名也是IBM推出的产品——蓝色基因/P系统,这是IBM去年刚刚打造的一部超级计算机,安装在德国的某个地方,具体地名笔者还没看懂!这套系统拥有62536个处理器,浮点处理能力达167.3TFlops;
第三名是SGI公司推出的SGI Altix ICE 8200,安装在美国新墨西哥州计算应用中心(NMCAC),拥有14336个处理器,浮点运算能力为126.9TFlops;
第四名来自惠普,这台超级计算机被安装在印度,拥有14240个处理器,浮点处理能力为117.9Tflops;
第五名也是来自惠普,安装地点在瑞典,拥有13728个处理器,浮点处理能力为102.8TFlops;
第六名的Red Storm Cray XT3来自Sandia/Cray,拥有26569个处理器,浮点处理能力为102.2TFlops;
第七名Cray的一套系统,安装在美国,拥有23016个处理器,浮点处理能力为101.7TFlops;
第八名又是来自IBM的产品,系统安装在美国华盛顿,拥有40960个处理器,浮点能力最高可达91.3TFlops;
第九名是Cray的一套系统,拥有19320个处理器,浮点处理能力为85.4TFlops,这部超级计算机在美国;
第十名是又是IBM 蓝色基因系列的一套产品,拥有36864颗处理器,浮点运算能力达82.2TFlops。
实际上,在超级计算机市场上,行业巨头的竞争也同样非常激烈,每一年这个表格都有很大的变化,这里给大家提供一个去年上半年统计的全球超级计算机TOP10,与上图对比你就大概知道竞争有多激烈了(如下表):
另外,本月17日——20日德国正在举行ISC08大会,也就是说这几天正在举办,应该会公布最新的统计列表,如果有消息的话,笔者将会在第一时间为大家报道。