四核争锋 2007年度双路四核服务器横评
Intel Xeon 5300,四核处理器先锋
【IT168评测中心】2006年11月14日,英特尔发布了代号为Clovertown的Xeon 5300系列处理器。根据英特尔公布的测试数据来看,Xeon 5355处理器相对于Xeon 5160处理器性能提升在60%左右,而我们对于同频率的Xeon 5320和Xeon 5120处理器的测试来看,很多应用中四核处理器的性能等于甚至大于同频的双路双核处理器的性能。顺利成章的,2007年英特尔在服务器市场上全面的发动了四核攻势。
Intel 5300处理器
去掉IHS的Clovertown |
Quad-core Xeon 5300系列处理器是定位于双路服务器/工作站应用的处理器,代号为Clovertown,它将两个双核核心整合在一个处理器基板上,率先向市场上推出了四核双路处理器。
英特尔首先发布了5款处理器X5355、E5345、E5335、E5320和E5310,随后又陆续发布了L5335、X5365等处理器。这些处理器均采用了65纳米制程和LGA6封装(LGA771),配置了8MB L2缓存(每颗处理器4MB L2缓存),主频分别为最高达到了3.0GHz。型号最后一位是“5”的FSB频率为1333MHz,传输带宽可达10.6GB/s,型号最后一位是“0”的FSB频率为1066MHz,传输带宽可达8.5GB/s。
四核Xeon 5300系列的TDP提升到了一个新的水平,X5355/X5365处理器TDP为120瓦,E系列的四款均为80瓦,L系列为50瓦。双核Xeon 5100系列处理器中,Xeon 5160的TDP为80瓦,Xeon 5148 LV的TDP为40瓦,其余的均为65瓦。从英特尔公布的这些TDP数据来看,虽然四核处理器是两颗双核处理器的“简单整合”,但是其功率应该并非两个双核处理器的功率之和。
|
上图显示的是Xeon 5320处理器的基本信息:Intel Xeon 5320处理器,主频为1.86GHz,前端总线频率为1066MHz,每个核心配置有32KB L1数据缓存,32KB L1代码缓存,每个DIE则整合有4MB L2缓存(也就是两个核心共享4MB L2缓存),整个处理器总共具有8MB L2缓存。总的来说,Xeon 5100所有的特性,Xeon 5300全都具有,最大的改变无非是核心的数量从2个增加到了4个。但是,毫无疑问的是四核处理器的出现使得计算资源的密度大幅度提升,而功耗基本保持不变,这对于寸土寸金的IDC而言绝对是有重大意义的。
#p#page_title#e#
Xeon 5400,45nm升华四核至强处理器
Intel严格的按照其“Tick-Tock”战略,在2007年的11月份推出了基于45nm制程的四核处理器,代号Harpertown。相对于上一代Clovertown核心的产品,Harpertown进一步优化了微架构,添加了功能并且升级了主要规格。
从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的英特尔SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。
和上一代Clovertown相比,Harpertown处理器将2 x 4MB的L2缓存提升到了2 x 6MB L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz FSB,而开始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP为80瓦、120瓦和150瓦,并且频率规格也有所提高,最高端的Xeon X5482处理器可以达到3.2GHz,而上一代Xeon X5365只有3.00GHz,
45nm Penryn的增强Core架构主要基于5大方面的改进
除了采用了更新的45nm工艺,Xeon 5400在微架构方面也做了大量的改进,主要包括以下5个方面:
- Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从处理器基础架构上提升了处理器的运算性能,它包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。与桌面平台相关的主要是16进制除法器,而服务器则可以从所有的改进内容中获益。
- Faster Radix-16 Divider(快速Radix-16除法器)
虽然除法也可以用乘法来代替,不过单独的除法指令、除法运算器部件显然可以提升效能,Penryn架构搭载了新的16进制除法部件,可以提供目前最顶级的除法性能。传统的2进制或者4进制除法只能在每个时钟处理1位或者2位数据(2个位就能表示4个数,也就是4进制的意思),而Penryn 16进制除法器可以每个时钟处理4位数据(4个位就能表示16个数),可以大大提升包括整数、浮点在内的除法性能,并大大优化了平方根的运算,而且Penryn的除法器的Early-out构造可以以极低的延迟输出结果,最小值需要6个时钟周期。除法器的性能提升几乎涉及到了所有的应用程序。
#p#page_title#e#
- Faster OS Primitive Support(更快速的操作系统基础支持)
Penryn通过提升中断遮罩控制以及时间戳计数器的性能,从而达到提升操作系统同步性能的目的。通常的多任务操作系统中,需要通过大量的中断请求来分配处理器资源给各个部件,而在繁忙的操作系统中,不同程序中大量的定时器/计数器需要不停地查询时间戳计数器,通过2倍于原来速度的CLI/STI/RDTSC指令执行速度,Penryn架构大大提升了这些应用的性能,例如数据中心、事务处理等应用都可以从中获得明显的提升,这有点像现代芯片组中新增加的精确时钟技术,这个技术可以比较明显地提升繁忙的服务器的性能表现。
- Enhanced Intel Virtualization Technology(增强的Intel虚拟化技术)
作为当前的热点,也是Intel当前专注的部分,虚拟化技术也没有被忽略,这个持续发展中的技术也获得了改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。
- Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联,服务器对L2缓存的利用效率是非常高的。
Intel Advanced Smart Cache其实就是L2缓存方面的改进,Penryn处理器家族的L2缓存容量得到了提升,双核心版本将拥有最多6MB、四核心将拥有最多12MB的L2缓存,比上一个版本增大了50%。并且在容量提升的基础上,Penryn还把L2 Cache的Associativity关联性由上一代的16路提升到了24路,令L2缓存存取的平均潜伏期得到了进一步的下降。
- Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。
除了更快的1600MT/s总线可以提供更高的存取速度之外,Penryn架构还提供了Improved Store Forwarding强化存储转发特性,通过新的64位载入指令,提升了内存之间、核心之间等的存储转发性能。
- Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎,这一点留待下一节介绍。
- Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术(该项改进主要针对移动平台)
#p#page_title#e#
SSE4,温柔一刀
如果说45nm制程技术是Intel希望借助于其在半导体工业领先优势给竞争对手当头棒喝的话,那么SSE4指令集的推出则更像是绵里藏针的温柔一刀,竞争对手想要实现同样的效能其难度不在新工艺之下。
SSE4.1指令集主要分为三个部分,分别是SSE4视频编码加速部分、SSE4图形加速部分和SSE4流加载部分,其中SSE4视频编码加速部分包括了14条指令,用于加速4x4绝对差和、子像素过滤一击数据查找方面的性能。
在进行视频编码时,需要进行大量的Motion Estimation(动态预测),动态预测是视频编码过程中极其重要的一个环节,它的算法效率对整个编码效率有很大的影响,而这个动态预测需要进行大量的SAD(Sums of Absolute Difference,差分绝对值和)的运算,该运算是大部分视频编码算法中运动估计一步常采用的方法。SAD算法将会在相邻两个连续视频帧中找出一个大块的运动情况,以纪录其运动数据代替纪录像素数据而节约存储容量、压缩视频。为此,SAD需要计算两个大块中每一组对应的像素值之间绝对差值的累加和。这本身就是一个非常复杂的大数据量运算动作,即使依靠SIMD指令的一条指令就处理大量数据的优势,要组合成SAD操作代码也需要大量的指令。
现在,SSE4指令集内特别加入了SAD加速运算指令,只需要一条指令就可以快速高效地完成这些工作。例如,在SSE4之前,一个SAD工作代码如下:
非常的冗长繁琐,而在有了SSE4之后,这些指令就可以简化为一条指令:
MPSADBW xmm0,xmm1,0
简化量是非常巨大的。而在复杂的动态预测程序中,要执行复杂的SAD代码,这时SSE4还可以额外提供更高的方便性:
SSSE3可以看作是SSE4的一个提前“泄露”的子集,同样的工作,右边的SSE4代码无疑要比SSSE3更为简捷。
SSE4当中还加入了快速查找的指令,虽然并不仅仅是视频编码才能具有作用,然而对于整位像素和子像素运动估计方面具有特别好的效果,如下图的指令可以在8个元素中找到最小的一个元素,并找到其位置:
在Intel的SSE4展示当中,使用搭载SSE4指令集的2.66G Wolfdale Core 2系统对比2.33G Core 2 Duo E6550进行Pegasys TMPGEnc 4.0 XPress HDTV编码,最后得到了55%的性能提升,其中加速的SAD处理和快速查找在各自的领域的性能提升达到了2~3倍,SSE4指令集的作用可见一斑:
其中,CPU的频率提升只有14%,总应用程序提升却达到了55%,这就是SSE4视频编码加速指令的作用了。
Penryn架构中SSE4相关的改良还有一个:就是Super Shuffle Engine,Intel称之为超级乱序引擎,不过我们认为称之为超级传送引擎更为贴切一些。
Super Shuffle Engine其实是加速SSE相关数据的传输转移过程,包括打包、解压、对齐、宽进位等操作,都可以通过Super Shuffle Engine来加速,从而可以在每个时钟周期内完成128位的操作。这个加速是完全硬件的,不需要软件的变动
#p#page_title#e#
厂商热衷Bensley平台,轻慢Stoakley平台
英特尔于06年年初发布的Bensley平台在最近的2年内得到了服务器厂商广泛采用。这个平台包括了三款芯片组它们是Intel 5000P、Intel 5000V和Intel 5000X,其中的前两者主要定位于服务器应用,而后者是定位于工作站应用。为了支持全系列Xeon 5400处理器,Intel还推出了两个新的芯片组系列产品:Intel 5400芯片组和Intel 5100芯片组。
45nm High-K Xeon 5400 DP处理器与采用了Intel 5000芯片组家族的Bensley服务器平台保持了较好的兼容,除了不能支持1600FSB Xeon 54x2处理器之外,可以很好的支持其它的1333FSB Xeon 5400处理器。这对于服务器厂商来说的确是一件好事,他们可以不必放弃已经经过2年市场考验的成熟系统,直接将现有产品升级到Xeon 5400即可得到一款“新产品”了。这也就是我们为什么现在看到的所有服务器都依然固守在Bensley平台上的主要原因。
Intel 5000P芯片组功能示意图 |
Intel 5000V芯片组功能示意图 |
Intel 5000系列芯片组通过独立的点对点系统总线支持两个处理器,完全不同于之前的芯片组采用的共享总线的方式,这被英特尔称之为双独立总线(DIB)。每条总线运行频率为266MHz(1066MTS),那么安装了FSB1066处理器的系统的前端总线的总带宽最高可达17GB/s,安装了FSB667处理器的系统的前端总线的总带宽为10.6GB/s。其实从规格表上,我们可以看出Intel 5000芯片组已经为FSB1333做好准备,下一代的Woodcrest核心的处理器可以在现有平台上平滑升级。
Intel 5000系列芯片组开始支持FB-DIMM(fully buffered DIMM)内存,英特尔计划让这种新型的内存全面取代现有的ECC Register DIMM。Intel 5000P MCH支持36bit寻址能力,总共可支持64GB物理内存。MCH支持4个FB-DIMM内存通道,每个通道最高支持4个双bank FB-DIMM DDR DIMM。因此在非镜像模式下,MCH最高可支持16 DIMM或者最大64GB物理内存,在镜像模式下最大可以支持32GB物理内存。Intel 5000V MCH则仅支持2个FB-DIMM内存通道,每个通道最高可支持4 DIMMs,总共可支持8 DIMM,那么最高内存容量可达16 GB。目前主流的E7520 MCH最高可支持16GB DDR2内存或者32GB DDR266内存。
每个安装了DDR533 FB-DIMM内存的FB-DIMM通道的读取带宽为4.25 GB/s,所以4个通道最高可以提供17GB/s的内存带宽,这正好同FSB1066 DIB总线的带宽相匹配。FB-DIMM采用了非对称设计,其上行信号线为10bit,下行信号线为14bit,此时4通道FB-DIMM可以提供8.5GB/s的写入带宽。在双通道配置的Intel 5000V平台上,这些数字都将减半,读取带宽为8.5GB/s,写入带宽为4.25GB/s。
Intel 5000P MCH和Intel 5000V MCH另外一个重要区别是对于PCI-Express总线的支持,5000P MCH支持3个x8 PCI-Express通道,每通道可以进一步配置为2个x4通道,其中1个x8通道(或者配置为2个x4通道)将用于同ESB2通讯。5000V MCH则仅提供1个x8(或者配置为2个x4通道)将用于同ESB2通讯。5000P MCH对于PCI-Express总线的支持同现有的E7520是相似的。
Stoakley平台由45nm Harpertown处理器和5400芯片组组成
Intel 5400 MCH芯片代号为Seaburg,它依然采用了DIB前端总线,工作模式为1066/1333/1600MT/s,可提供17-25.6GB/s的数据传输带宽——可很好的支持Intel Xeon 54x2处理器。为了保证双路四核系统的效能,Seaburg整合了容量高达24MB的Snoop Filter(探听过滤器)。
在以前的5000X芯片组上,我们就已经看到了Snoop Filter的存在,现在Seaburg将5000X的16MB容量扩展的更大。探听过滤器是位于芯片组中的高速缓存标记结构,它可追踪处理器中的高速缓存的高速缓存线状态——只是包括其标签和状态,不包括数据,过滤不必要的探听,帮助多个处理器核心更好的协作,以提升多路处理器系统的工作效率。
Seaburg整合了4通道FB-DIMM 533/667MHz内存控制器,最高可提供21GB/s的内存带宽。当然,我们不排除细分市场的需要,会有双通道版本的Seaburg。Seaburg所整合的内存控制器最高寻址范围为38bit(128GB),是上一代MCH的一倍。
Seabury MCH依然通过ESI总线同631x ESB/632x ESB I/O Controller Hub通讯。Intel ESB芯片的开发进度似乎很缓慢,我们分析这应该是同PCIe总线应用越来越多有关,大部分的高吞吐量设备都可通过PCIe总线同MCH通讯,ESB更多的是保持对于传统设备和低速设备的支持。
Seaburg提供了44条PCIe x1(PCIe 1.x)通道,相比Blackford多出了12条,而且这些PCIe通道均可灵活配置,因此可充分满足连接多个高速设备的需求。Seaburg还提供了两条PCIe x16(PCIe 2.0)通道,可用于支持显卡等设备。
Stoakley平台还能提供2个千兆以太网端口和1个万兆以太网端口,此外可利用Intel IOP 348处理器实现对于SAS/SATA 3Gb/s设备的支持。
#p#page_title#e#
Barcelona,AMD的希望之城
2007年下半年,AMD终于推出了代号Barcelona的四核处理器——第三代Opteron处理器目前包括了6款产品,主频从1.7GHz到2.2GHz不等。AMD利用处理器主频和整合内存控制器频率来提供差异化的Opteron产品
AMD坚持采用“纯四核”设计,它将四个核心整合在单颗硅片,确保核到核之间的通信畅通。
如上图所示,每个核心配置了64K L1数据缓存和64K L1指令缓存(每个周期可以载入两个128位指令,是上一代Opteron处理器的1倍),每个核心还具有512K L2 高速缓存,4个核心还共享容量为2MB的L3高速缓存。
同样,每颗Barcelona处理器中整合了一个128bit内存控制器(两个64bit独立内存通道),相对于前一代Opteron所整合的内存控制器,它做了多个方面的改进:
- 更大的内存缓冲有助于提高吞吐量
- 写突发以最小化读/写迁移,有助于提高吞吐量
- 优化的DRAM页式算法,有助于提高吞吐量
- DRAM预取器可智能地预测和检索主内存所需的数据
- 核心预取器能直接从 L1 高速缓存中获取数据以减少延时和释放 L2 带宽
AMD宽浮点加速器是Barcelona最新加入的功能,其128bit SSE浮点处理单元每个时钟周期内最多可同时执行4个浮点操作,是上一代Opteron处理器的4倍,有利于提升计算密集型应用程序的性能。为了充分发挥128bit SSE浮点处理单元的性能,Barcelona的取指令(Instruction fetch)带宽、数据缓存带宽、内存控制器到缓存带宽相对于上一代Opteron均提升了1倍
Barcelona处理器支持DDPM(双动态电源管理,Dual Dynamic Power Management)功能,这个功能允许多处理器系统中的处理器乃至多个核心根据负载情况运行在不同的频率和电压下。同时,即便某个处理器或者某个核心处于低速状态,其内存控制器依然可以保持在高速状态下。此外AMD ColCore技术还可以通过关闭处理器中不使用的部分来节电。比如,内存控制器在执行读取操作的时候,可以关闭写电路。这个功能内嵌于处理内部,不需要驱动程序或者BIOS的支持。每次开关的最小单位是一个时钟周期,因此这个功能并不会影响性能。 AMD通过一系列的同功率有关的技术来确保处理器子系统和内存子系统具有更好的能效比。
AMD Virtualization (AMD-V™)技术允许虚拟机直接管理内存,从而尽可能的提升虚拟化的效率,降低不必要的开销。Barcelona中增加了带有快速虚拟化索引功能(Rapid Virtualization Indexing),它可以缩短仲裁时间,使得虚拟机(VMs)之间切换更快,从而在一台服务器上部署更多的虚拟机。
虽然采用了最新的Barcelona核心,但是Opteron 2300封装形式同上一代Opteron完全兼容,而且TDP要求完全一样,因此对于服务器厂商而言推出新产品是非常简单的,只要在原有的产品型号的基础上升级处理器既可达成。希望在过去两年期间购买的Opteron服务器的AMD的老用户也能用很小的代价进入到“巴塞罗那”城!
#p#page_title#e#
一线品牌四核产品:IBM跟进Xeon,按兵Opteron
IBM对于Intel Xeon 5400系列产品的跟进速度很快,目前其双路处理器机型System x3650(2U机架)、System x3550(1U机架)、System x3500(5U塔式)和System x3400(5U塔式)均已经升级到了Xeon 5400系列处理器。
从上面的表格,我们还可以看出,IBM采用的是在原有机型上安装适用的处理器的做法来提供双路四核服务器产品的,也就是说这几款服务器均采用的是Intel 5000系列芯片组。
IBM的采用AMD Opteron处理器的产品则显得没有那么即时,目前x3455和x3655两个系列的产品依然仅仅支持Opteron 2000系列处理器。
IBM的刀片产品的情况也相同,其BladeCenter HS21已经可以支持Xeon 5400系列处理器,而IBM BladeCenter LS21依然仅仅支持Opteron 2000系列处理器
一线品牌四核产品:Dell一手抓Xeon,一手抓Opteron
多年坚守Intel阵营的Dell一旦选择了AMD之后表现的异常坚定,PowerEdge 2970和PowerEdge SC1435提供了对于Opteron 2300处理器的支持,而PowerEdge 2900 III、PowerEdge 2950 III、PowerEdge 1950 III则提供了对于Xeon 5400处理器的支持。
同样,Dell也没有采用Intel 5400芯片组,而是继续在上一代产品的基础上升级了处理器,来推出了第三代PowerEdge 2900/2950/1950服务器。
Dell的刀片服务器也已经对于Intel和AMD最新的双路处理器提供了支持,比如PowerEdge M600已经可以支持Xeon 5400处理器,PowerEdge M605已经可以支持AMD Opteron 2300处理器。
#p#page_title#e#
一线品牌四核产品:浪潮
浪潮第一时间推出了支持Intel四核处理器的服务器产品,目前其NF系列和NL系列产品都可以运行Xeon 5400系列处理器,当然浪潮也依然采用的是Intel 5000系列芯片组。
浪潮NF290D服务器
浪潮NF380D服务器
浪潮NF280D服务器
浪潮NL380D服务器
浪潮NL2300D服务器
#p#page_title#e#
一线品牌产品:联想
在机架式产品方面,联想并没有推出R510 G7和R520 G7,而是采用了R515和R525两个新型号:
联想R515双路四核1U服务器
联想R525双路四核2U服务器
此外,R350 G6C、T350 G6C、T280 G2分别在原有R350 G6B、T350 G6B和T280的基础上做了升级,对于Intel Xeon 5400系列处理器提供了支持
#p#page_title#e#
测试平台和测试方法
一般的评估服务器都采用RASUM评价体系或者RUMA评介体系,两者的内容非常的相似,RASUM为Reliability(可靠性)、Availability(可用性)、Scalability(可扩展性)、Usability(易用性)、Manageability(可管理性)的缩写,RUMA为Scalability(可扩展性),Usability(易用性),Manageability(易管理性),Availability(可用性)。这些评估准则均是从长期的实践中总结出来的,符合这些准则的服务器产品可以更好的为用户服务。我们依据这些基本的准则结合我们的实际测试环境对于服务器的以下几个方面进行了评估。
一、性能评估
2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。
Catalyst4500千兆交换机 |
部分Dell PowerEdge SC430服务器 |
#p#page_title#e#
在新的测试环境下,我们进一步完善了服务器性能测试方案:
-
SPECCPU2006 v1.0
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.011 Compiler、Intel Fortran 10.1.011 Compiler这两款SPEC CPU2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(对于SSE3,使用的是QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
-
IOMeter 2006.7.27
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
-
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
-
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
-
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
-
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
-
SiSoftware Sandra SP1 v2007
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。今年该软件推出了2007版,该版本新增了4项基准测试,包括Power Management Efficiency、Memory Latency、Physical Disks和CD-ROM and DVD这四个项目。另外,它还对于原有的几个基准测试模块进行升级,比如在Arithmetic benchmarks中增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
-
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
-
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
-
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
#p#page_title#e#
二、主要规格和技术验证
这个部分主要对于送测服务器的物理特性、硬件配置等等进行考察、评估,比如服务器机箱架构、规格尺寸、处理器型号/数量/主频、芯片组、内存型号和容量、磁盘控制器、硬盘型号、磁盘阵列、网卡型号和接口类型、散热设备、供电、扩展槽、IO接口、托架数量等等。此外还对于处理器技术(SMP技术、HT技术、EMT64、Dual Core)、内存技术(DDR、DDRII、FB-DIMM、双/多通道、内存镜像、内存热备、内存侦错/纠错)、磁盘接口技术(SATA、IDE、SCSI、SAS)、磁盘阵列技术(RAID 0、RAID 1、RAID 10、RAID 5)等等进行了全面的考查和验证。
三、服务器管理功能
决大多数的服务器厂商都会提供给用户服务器管理解决方案,我们对于不同的管理解决方案的具体组件、采用的协议、安全特性、维护和更新系统的能力、系统监测的项目、报警和日志的方式与方法、故障分析和修复等多个方面进行了考查。我们还对于厂商提供了服务器部署导航解决方案进行了考查,比如其所支持的操作系统的类型、支持本地部署的前提下还能否支持远程部署等等。
四、技术支持和质保
这个部分主要包括对随机文档、网站资讯、在线支持方式、电子邮件支持情况、电话支持情况以及上门服务的承诺都进行了对比。比如,内容丰富、图文并茂的随机文档会得到我们较高的评价,这毕竟是用户获得基本技术支持最基本、最及时、最有效的方案之一。而随着网络应用的普及,我们的考察重点也放在了在线互动、在线支持上
所有参测机型主要规格一览
2007-2008年度服务器横评参测产品 |
||||||||||
厂商 | Aisino 航天联志 |
ASUS华硕 | Dawning曙光 | Dell戴尔 | IBM | Inspur 浪潮 |
Inspur 浪潮 |
Lenovo联想 | Powerleader 宝德 |
TYAN泰安 |
型号 | Aisino 5250R | RS260 | A620r | PowerEdge 2950 III | X3650 | NF190D | NF280D | R525 | PR3015S | GT24 |
评测文章 | 航天联志5250R双路四核2U服务器评测 | 性价比突出 华硕RS260双路服务器评测 | 巴塞罗那 曙光天阔620R四核服务器评测 | 新潮元素大集合 戴尔PE2950III评测 | 蓝色巨人 IBM X3650双路四核服务器评测 | 小个头大智慧 浪潮NF190D服务器评测 |
延续经典 浪潮NF280D双路四核服务器 | 豪华阵容 联想万全R525四核服务器评测 | 海量存储 宝德PR3015S存储服务器评测 | 泰安GT24双路四核1U服务器深入评测 |
主板 |
Intel Alcolu S5000PAL | ASUS DSBF-D12/2U/SAS | Supermicro H8DM8-2 | 0RU411-X04 | X3650 | Supermicro X7DBR-3 | Supermicro X7DBR-3 | Lenovo DPX 1333RK | Intel S5000VSA | Tyan Transport GT24-B3992-E |
芯片组 | Intel 5000P Intel 6321ESB |
Intel 5000P Intel 6321ESB |
nVIDIA nForce Pro 3600 | Intel 5000X Intel 6321ESB |
Intel 5000P Intel 6321ESB |
Intel 5000P Intel 6321ESB |
Intel 5000P Intel 6321ESB |
Intel 5000P Intel 6321ESB |
Intel 5000V Intel 6321ESB |
ServerWorks HT1000 HT2000 |
处理器 |
Xeon E5335(Clovertown) | Xeon E5310(Clovertown) | Opteron 2354(Barcelona) | Xeon E5420(Harpertown) | Xeon X5365(Clovertown) | Xeon E5440(Harpertown) | Xeon E5440(Harpertown) | Xeon X5460(Harpertown) | Xeon X5355(Clovertown) | Opteron 2354(Barcelona) |
主频 |
2.0GHz | 1.6GHz | 2.2GHz | 2.5GHz | 3.0GHz | 2.83GHz | 2.83GHz | 3.16GHz | 2.66GHz | 2.2GHz |
FSB |
1333MTs | 1066MTs | 1000MTs | 1333MTs | 1333MTs | 1333MTs | 1333MTs | 1333MTs | 1333MTs | 1000MTs |
L2容量 |
2 x 4MB | 2 x 4MB | 4 x 512KB | 2 x 6MB | 2 x 4MB | 2 x 6MB | 2 x 6MB | 2 x 6MB | 2 x 4MB | 4 x 512KB |
L3容量 | - | - | 2MB | - | - | - | - | - | - | 2MB |
内存 |
Samsung M395T5750EZ4-CE66-FBD533 | Transcend TS256MFB72V6U-T-FBD533 | Ramaxel RMM1071EG38D7W DDR2-553 | Samsung M395T5750CZ4 | Hyundai HYMP512F72BP8D2-Y5 | Ramaxel RMP1291EGN38D7W667 | Ramaxel RMP1291EGN38D7W667 | Samsung M395T5750CZ4-CE61 | Transcend TS256MFB72V6U-T | Kingston KVR533D2D8R4/1G-DDR2-667 |
总容量 | 8GB | 8GB | 16GB | 8GB | 12GB | 8GB | 8GB | 16GB | 8GB | 8GB |
磁盘控制器 |
Intel RAID Controller SROMBSAS18E | LSI Logic MegaRAID SAS 8300XLP RAID Controller | LSI Logic MegaRAID SAS 8708ELP RAID Controller | DELL PERC 6/i Integrated RAID Controller | IBM ServeRAID 8k/8k-l | LSI Logic MegaRAID SAS 8708ELP RAID Controller | LSI Logic MegaRAID SAS 8708ELP RAID Controller | LSI Logic MegaRAID SAS 8708ELP RAID Controller | Promise SuperTrak EX8300 SATA-II RAID Controller | Broadcom HT1000 SATA Controller |
硬盘 |
Seagate Cheetah 15k.5 SAS | Seagate Cheetah 15k.5 SAS | Seagate Cheetah 15k.5 SAS,ST3146855SS | Seagate Savvio 10K.2 | FUJITSU MAX3073RC | Seagate Cheetah 15k.5 SAS | Seagate Cheetah 15k.5 SAS | Seagate Cheetah 15k.5 SAS | WDC WD2500ABYS SATA | HITACHI Deskstar HDS728080PLA380 SATA |
磁盘设置 |
RAID5 | RAID5 | RAID5 | RAID5 | RAID10 | RAID5 | RAID5 | RAID5 | RAID5 | 单硬盘 |
网卡 |
Intel PRO/1000 EB Network Connection with I/O Acceleration |
Intel PRO/1000 EB Network Connection with I/O Acceleration | NVIDIA nForce Networking Controller | Broadcom NetXtreme II BCM5708 Gigabit Ethernet Controller | Broadcom BCM5708C NetXtreme II GigE | Intel PRO/1000 EB Network Connection with I/O Acceleration | Intel PRO/1000 EB Network Connection with I/O Acceleration | Intel PRO/1000 EB Network Connection with I/O Acceleration | Intel PRO/1000 EB Network Connection with I/O Acceleration | Broadcom NetXtreme Gigabit Ethernet(BCM5780) |
操作系统 |
Microsoft Windows 2003 Enterprise Server R2 5.2.3790 (Service Pack 1) |
如上表所示,本次横向评测活动共征集了9个厂商的10款主流双路四核服务器,这其中包括了IBM X3650、Dell PowerEdge 2950、浪潮NF190D和280D和联想R525等在国内市场上占据重要地位的厂商的主力型号产品。
如上表所示,本次横向评测活动共征集了9个厂商的10款主流双路四核服务器,这其中包括了IBM X3650、Dell PowerEdge 2950、浪潮NF190D和280D和联想R525等在国内市场上占据重要地位的厂商的主力型号产品。
AMD Opteron 2354处理器主要信息
在这10款产品中有两款服务器采用了AMD Opteron 2300处理器——代号为Barcelona的处理器,这是AMD在07年发布的重头产品。曙光A620r和泰安GT24两款服务器均采用了AMD Opteron 2300系列处理器,凑巧的是这两款服务器都采用了Opteron 2354四核处理器,主频为2.2GHz,每个核心有512KB L2缓存,并且共享总容量为2MB的L3缓存。
#p#page_title#e#
另外的8款产品均采用了Intel Xeon四核处理器。其中的4款服务器采用了基于Clovertown核心的Xeon 5300系列处理器,它们是航天联志5250R(E5335,2GHz)、宝德 PR3015S(X5355,2.66GHz)、华硕RS260(E5310,1.6GHz)、IBM X3650(X5365,3GHz)。另外的4款则采用了最新的Intel Xeon 5400处理器(代号Harpertown),浪潮NF190D和280D(E5440,2.83GHz),Dell PowerEdge 2950 III(E5420,2.5GHz)和联想R525(X5460,3.16GHz)。
Intel Xeon 5300/5400处理器主要信息
代号Clovertown的Xeon 5300和代号为Harpertown的Xeon 5400采用了相同的微架构,但是确又有诸多的不同,在《性能提升 功耗剧降 45nm至强处理器测试》一文中对于这两个系列的处理器的异同做了详细的介绍,还通过一系列的测试证明了频率相近的Harpertonw处理器比Clovertown处理器性能提升10%以上,而功耗却有了50%左右的下降。
所有10款服务器中,有1款采用了NVIDIA芯片组(曙光A620r),有1款采用了Broadcom芯片组(泰安GT24),另外的8款产品采用了Intel 5000系列芯片组。去年,Intel在发布Xeon 5400处理器的同时还发布了支持DDR2内存的Intel 5100系列芯片组,不过其主要定位较低,因此各大服务器厂商并没有在其主流产品中应用,从送测服务器配置可以看出这一点。
出于部分测试项目的需要,此次横评我们要求厂商为其送测产品配置了较大容量的内存,普遍配置了8-16GB内存,只有泰安GT24配置了4GB内存,但是为了能顺利测试SPEC CPU2006我们为其增配到8GB。
SAS接口的硬盘已经非常的普及,在本次参测的10款产品中有8款配置了SAS接口的硬盘。只有宝德PR3015S和泰安GT24配置了SATA接口的硬盘,宝德PR3015S是一款存储服务器,采用了定位于企业应用的西部数据WD2500ABYS硬盘,但是泰安GT24采用了HITACHI Deskstar系列的硬盘让人不免担心服务器的可靠性。
希捷硬盘产品在服务器中占据了明显了优势,有7款产品采用了Seagate Cheetah 15k硬盘,只有IBM采用了FUJITSU的产品。
浪潮NF190D和NF280D、联想R525、华硕RS260、曙光A620r均采用了LSI Logic的解决方案,IBM、Dell分别采用了 IBM ServeRAID 8k/8k-l和DELL PERC 6/i控制器,分别基于Adaptec和LSI Logic设计。宝德PR3015S采用了 Promise SuperTrak EX8300 SATA-II RAID控制器,而泰安GT24则干脆直接利用Broadcom HT1000整合的SATA控制器。
在这10款服务器产品中,航天联志5250R、浪潮NF190D、浪潮NF280D、宝德PR3015S、联想R525、华硕RS260等6款产品均采用了Intel解决方案,对于Intel I/OAT技术提供了完全的支持。Dell、IBM虽然采用了Intel平台,但是在网络部分却一直采用Broadcom的解决方案。曙光A620r和泰安GT24这两款基于AMD平台的产品,分别采用了NVIDIA和Broadcom的网络解决方案
规格与设计评估
在我们的评估体系中,服务器的主要规格与设计占据总分的10%,也就是这个部分的满分为10分。我们通过考查服务器的外部设计、内部结构、处理器技术、内存技术、存储子系统设计、通讯设计、电源设计、散热设计以及附送附件对于送测服务器进行全面的估评。
根据我们的评估结果显示,所有的品牌服务器都在及格线以上,最高分和最低分之间的差距不过1.9分,这说明现代服务器设计已经非常的成熟。TYAN GT24和浪潮NF190D两款服务器成绩较低,这主要受限于1U高度服务器空间有限,扩展性、冗余性必然的会受到限制。航天联志5250R和曙光A620r-FY作为2U高度服务器的得分偏低,主要原因是产品仅仅配置了简单的驱动光盘,附加价值不高。其余的6款服务器得分均在8.3分以上,之间的差异只有0.5分,这些主流品牌的服务器在设计上非常的接近