AMD Istanbul实测:增加两个内核的意义
前言
虽然45nm四核Opteron是目前市场上最好的服务器CPU之一,不过就在几个月之后,AMD所取得的成功就被英特尔代号Nehalem所取代。Nehalem架构在很多方面进行了完善,例如三通道的集成内存控制器(IMC)。IMC借助高主频DDR-3 DIMM实现了低延迟和高带宽。但是这对雄心勃勃的Intel工程师来说是远远不够的。他们还增加了Simultaneous MultiThreading (SMT),据Intel称这项技术可以将性能提升30%左右,被SAP、Oracle和MS SQL Server等关键应用所采用。最终结果是,现有的Xeon处理器的性能比AMD最好的CPU高出了60%~85%。
可能会有人对这次基准测试的细节提出质疑,但这不过是斤斤计较罢了。是的,这些数据是在采用DDR3-1333情况下测试得出的,而大多数Xeon55XX系列服务器采用的都是DDR3-1066。而且速度最快的至强处理器的能耗大约比Shanghai Opteron处理器高出了20W。所以为了进行同类对比,你应该拿主频为2.53 GHz的E5540来比较。但即使是在DDR3-1066和2.53 GHz两个条件具备的情况下对比,最新的Xeon处理器仍然比AMD Opteron四核处理器高出40%~70%,而且在带宽密集型应用中测试的领先优势更为明显。只有在很少见的密集矩阵应用中,基于最常用的Linpack基准测试,AMD可能会获得一些加分。在低能耗和低价格基础上AMD可以提供相同的Gigaflops,不过我们谈的是市场份额只有不到1%的应用。不过AMD也有一线希望,那就是在我们的vApus Mark I虚拟化基准测试中,主频为2.9 GHz的Opteron 2389在ESX 3.5平台上有突出的性能表现。但是在ESX 4.0平台上,最新的Xeon Nehalem处理器凭借更好的超线程支持和ESX hypervisor提供EPT技术的支持而再次将领先优势扩大。AMD的下一代CPU预计将在2012年面市,因此AMD很可能会把高端和终端服务器CPU市场拱手让给Intel,除非……
AMD自从推出45nm CPU以来一直有很好的表现。你可能还记得AMD在1999年10月推出250nm的K75,仅仅5个月之后,也就是在2000年3月AMD将“x86-Alpha”主频提高到1 GHz。的确在这10年中AMD一直不断努力。就在成功发布45nm四核处理器之后的6个月,AMD提前发布了代号为“Istanbul”的6核Opteron处理器。Istanbul实际是在Shanghai的基础上增加了两个内核,内存控制器有所增强。更让人印象深刻的是,AMD昨天还展示了主频为2.6 GHz的16核处理器,其能耗仅比6个月前推出的2.7 GHz四核处理器高一点。那么,IT专业人士是否会关注最新的六核AMD处理器?在使用哪些应用的时候应该考虑基于Istanbul的服务器?增加的两个内核是否会让AMD的Opteron处理器重新出现在你下一个高性能服务器的规格表中?
6核有意义吗?
当Intel发布16核Dunnington的时候,有很多应用无法很好地利用这一处理器。基于Istanbul的四路服务器也将面临相同的问题:一些服务器应用倾向于“2的N次方个内核”,而且很多都不会超过8核,更不会成功地超越16核。甚至在服务器领域,很多应用也无法很好地扩展超过8核~16核。邮件服务器、Web服务器、甚至一些数据库都是这种情况。如果你的数据库锁定了相同的数据量,那么一旦超出一定的内核数,锁定阻塞可能会削弱性能。渲染应用也是一个超出8核会影响性能的例子。可能将四路四核聚合到一起要比向同一台设备添加更多内核更有意义。
但是六核IstanbulCPU也有很多有点。Nehalem Xeon提供了8个逻辑内核,但是每个内核上的两个线程必须共享32 KB的一级缓存和256 KB的二级缓存。Istanbul只有6个线程,但是每个线程都可以获得64 KB的一级缓存或者512 KB的二级缓存。总而言之,很明显最新的AMD Istanbul Opteron处理器瞄准了特定的市场:计算密集型高性能计算应用、大型数据库还有最重要的“高度”虚拟化工作负载,这里我们之所以说“高度”是因为六核Opteron可即时取代现有四核Opteron。也就意味着基于最新六核处理器的服务器的内存容量可能是相同的。如果你将很多低工作负载整合到一起,那么在达到处理能力极限之前就会遇到内存瓶颈。#p#page_title#e# Istanbul的升级功能 Istanbul的内核与Shanghai是一样的,只是增加了几项升级功能:HT Assist、略高的HT速度、APML和x8 ECC。 X8 ECC:一个DIMM上的每个DRAM芯片提供了4比特或者8比特的数据。提供了4比特的芯片被称为x4,提供了8比特的芯片被称为x8。8个x8芯片或者16个x4芯片生成一个16位字节,所以一个DIMM在一边或者两边至少需要8个芯片。Istanbul的内存控制器现在支持对x4和x8 DIMM的纠错功能。 APML远程电源管理界面:APML界面让你能够通过P-State限制进行监控和控制平台能耗。你需要在服务器上有一个支持APML的CPU和BMC,监控电源和对电源管理工具作出变更。目前相关的硬件和软件还在开发中,所以支持这些功能的服务器产品将在本月面市。APML是一项有趣的技术,它让你不用进入BIOS就可以控制电源。AMD的PowerCap Manager可以限制电源,确保CPU的主频不会超出特定界线,这对冷却或者电力资源有限的数据中心来说是非常有用的。当然在有着上百台服务器的数据中心,BIOS选项并不那么简单。这就是APML的优点所在。 更高的超线程速度:最新的Shanghai Opteron处理器支持HyperTransport 3.0(HT3)。HT3的主频高于旧型号Opteron处理器所使用的HyperTransport连接技术。主频提高到了2.2 GHz DDR,每个方向可实现8.8 GB/s的速度。Istanbul将HyperTransport的主频提高到了2.4GHz DDR,每个方向可实现9.6 GB/s的速度。因为最新的Fiorano平台还没有准备就绪,所以我们仍然得使用旧的NVIDIA MCP55平台进行测试。不过没有关系,CPU互连速度是和CPU有关的,并不是主板或者芯片组,你可以在下面的BIOS截屏中明显地看出来: 最后一项升级是HT Assist,后面我们将详细谈谈这一功能。 #p#page_title#e#
HT Assist:只用于四路系统 HT Assist是AMD所采用的一种探测过滤器技术。首先,让我们来看一看Shanghai四核系统。CPU 3可能需要CPU 1才有权访问的缓存行,但事实上最近的数据在CPU 2的二级缓存里。 流程如下: 1、CPU 3向CPU 1请求数据(蓝色实心箭头“数据请求”) 2、CPU 1发出广播,看其他CPU是否有最新的数据(三个红色实心箭头“探测请求”) 3、在探测完成之前,CPU 3保持空闲状态(四个红色空心箭头“探测回复”) 4、请求数据从CPU 2发送到CPU 3(两个蓝色空心箭头) 这种广播的方法存在两个严重问题:首先,一个相对简单的请求就需要十次处理,严重浪费带宽;其次,这十次处理给CPU 3上的指令增加了大量延迟。 解决方案就是采用基于目录的系统,AMD称之为HT Assist。HT Assist在每个CPU上保留1MB三级缓存作为一个目录。这个目录被用于在其他系统中使用的缓存行。也就是说,虽然三级缓存只有5MB大,但省去了很多探测或者传输。从下图中可以看明白: 让我们看看发生了什么,还是从CPU 3开始: 1、CPU 3向CPU 1请求数据(蓝色实心箭头) 2、CPU 1检查三级缓存目录缓存以定位请求数据(红色加粗箭头) 3、从CPU 1三级目录缓存的读取说明CPU 2有最新的数据副本并直接探测CPU 2(深红色实心箭头) 4、请求数据从CPU 2发送到CPU 3(蓝色空心箭头) 这次处理次数只有4次,而不是10次,大大降低了延迟并减少带宽的浪费。这种探测“广播”的方法可以将11个的CPU向CPU日常处理减少8个。流量测量结果显示,四路系统的内存带宽提升了60%,采用了HT Assist之后的吞吐量为41.5GB/s,而没有采用HT Assist的是25.5GB/s。 但是需要提出一点,HT Assist只在四路系统内有用,在八路系统内能最大限度上发挥其重要性。在二路系统内,因为另外只有一个CPU,所以广播方法实际上与单播方法是相同的。HT Assist还降低了二级缓存的命中率,所以在2P系统应该禁用HT Assist。看看下面的BIOS截图: 在探测过滤器下面有三个选项:自动、禁用和MP。在自动模式下,探测过滤器或者HT Assist在2P系统中是关闭的。你可以通过设定“MP”模式启动HT Assist。 #p#page_title#e#
Intel与AMD的产品线 在我们查看基准测试结果之前,应该先看看厂商是如何定位他们的CPU产品的。在这之前,先让我们来快速浏览一下AMD和Intel最重要的CPU产品。 AMD显然承认他们在原始性能方面比不上Xeon X55xx系列。最高的两个型号X5570和X5560不在这个范围内。AMD可能会说,在某些应用中,最新的六核Opteron可以与Xeon X55xx打成平手。在2435方面,你可能会看到低功耗的优点。还要注意,最高型号的四核Opteron处理器的价格已经相当便宜了。主频为2.9 GHz的2389 “Shanghai”仍然不是Xeon E5540 2.53,但是有必要关注一下服务器价格。32 GB的DDR-3 1066价格仍然在1200美元左右,而32 GB的DDR-2 800只需要大约850美元。这已经超出了本文的讨论范围,但是很显然,即使这两个CPU价格相同,基于AMD的服务器仍然是更便宜一些。不管怎么说,X55xx还是一个很新的平台。 来看一看印模尺寸和晶体管数量方面的数据: AMD的Istanbul是一款尺寸相当大的芯片,但是并不像Barcelona的价格那么高。Harpertown摘得了生产成本最低的桂冠。 我们的基准测试方法和选择 与以往的AMD CPU发布一样,我们没有太多时间进行基准测试。当我们开始运行BIOS的时候发现我们的Adaptec RAID卡完全不支持这个新的BIOS,我们只剩下不到一周的时间进行服务器基准测试,而这在以前每个步骤都要花上几个小时的时间。所以我们必须作出选择。如果不使用Adaptec RAID卡的话,我们就得放弃此前一直使用的大多数磁盘密集测试:DVD Store处理测试。 尽管时间紧张,我们仍然非常严格地执行新的基准测试方法。我们没有放弃任何一个可使用的软件,并决定“购买者”应该被纳入我们的基准测试范围内。基本上,每一个重要的软件类型都应该至少有一个、最好是有两个基准测试组中的代表。从下面的表格中你可以看到服务器软件类型和这次测试可能用到的基准测试。我们增加了“相关”一栏,因为“Istanbul”只针对这个市场的一部分。很少有人会为打印服务器、域控制器或者邮件服务器购买8核处理器。 由于时间有限,我们决定推迟Exchange和Linpack测试。这次我们将不提供SAP基准测试结果。 基准架构 我们的基准要求都不超过20GB。数据库文件保存在一个3驱动器RAID-0 Intel X25-E SLC 32 GB SSD上,日志文件保存在一个32GB的Intel X25-E SLC上。 Xeon服务器 1: ASUS RS700-E6/RS4 barebone Xeon服务器 2: Intel“Stoakley platform”服务器 Xeon服务器 3: Intel“Bensley platform”服务器 Opteron服务器: Supermicro SC828TQ-R1200LPB 2U Chassis vApus/Oracle Calling Circle Client Configuration OLTP基准:Oracle Charbench "Calling Circle" 操作系统:Windows 2008 Enterprise RTM (64位) Calling Circle是一项Oracle OLTP基准。我们测试的数据库大小是9GB。为了减少对存储系统所带来的压力,我们将SGA增加到10GB,PGA大小设定在1.6GB。Calling Circle测试包括83%的选择、7%的接入和10%的升级,运行时间为10分钟,一个循环反复6次,不采用第一轮的测试结果,因为磁盘队列长度(DQL)有时候接近1,而第二轮和之后的DQL接近0.2或者更低。在这种情况下,更容易以99%的负载运行CPU。因为DQL是非常相似的,所以我们将在“Nehalem”文章中保留我们的测试结果。所有架构都使用2路系统。 Opteron 2384(主频2.7 GHz)的测试数据表明,主频为2.6 GHz的Opteron的结果大约在231左右。Istanbul 2435在性能上高出27%。这低于超线程技术给Xeon X5570带来的加分,明显说明超线程技术在这些低IPC数据库工作负载中是一个多么强大的武器。Xeon X5570比AMD最新的六核处理器快了大约50%。即使Opteron 2435的主频比X5550低了10%,但显然Xeon X55xx远超过了AMD最好的CPU。 #p#page_title#e# 决策支持基准:Nieuws.be 操作系统:Windows 2008 Enterprise RTM (64-bit) Nieuws.be站点位于一个大型数据之上:超过100GB且在不断增加。这个数据库有上百个独立表格组成,我们的实验平台(Sizing Servers Lab)对其进行了仔细的优化。我们已经详细描述了测试方法,有些读者建议我们从SQL Server 2005 SP3升级到SQL Server 2008,这会给决策支持数据库带来29%~38%的性能提升。所有架构使用的是2路系统。让我们来看一看MS SQL Server 2005数据: 与SQL Server 2008的数据进行对比 显然SQL Server 2008对OLAP数据库必须接收的复杂队列进行了更好的优化。 回到硬件方面。在这两种情况下,你可以明显地看到,“未评分”的一些因素(缓存和内存带宽)对工作负载的影响小于OLTP测试。Opteron 2435比Opteron 2384(主频2.7 GHz)快41%。主频为2.6 GHz的Opteron处理器的得分大约为385,也就是说,4~6核的扩展是最好的:46%。虽然这一扩展范围非常接近50%的理论最大范围,但是还不足以击败最新的Xeon处理器,只是将它的优势缩小到16%。不过,因为Opteron 2435的竞争对手是主频为2.66 GHz的Xeon处理器,而不是主频为2.93 GHz的Xeon处理器,所以这是第一个Istanbul占据优势的基准测试项目,与四核Shanghai形成了鲜明对比。 #p#page_title#e# 网站:MCS eFMS (Windows 2003 32 bit EE) 操作系统:Windows 2003 R2 - 32-bit MCS开发的MCS Enterprise Facility Management Software (MCS eFMS)模块是处理最密集的Web应用之一。eFMS的目的是集成空间使用管理、资产和设备、线缆基础架构等,同时追踪和控制成本。MCS eFMS将所有信息保存在一个Oracle中央数据库内。 MCS eFMS包括三项关键技术:基于Web的前端,集成了CAD绘图功能,从十分复杂、与ERP相似的Oracle数据库内提取信息,生产一个关于所有可用空间和保留空间的树状总览图,运用CAD绘图获得更多细节:MCS eFMS是目前我们所知要求最苛刻的Web应用之一。MCS eFMS使用了Microsoft IIS 6.0 (Windows 2003 Server Standard Edition R2)、Php 4.4.0、FastCGI和Oracle 9.2四种软件。结果如下: 我们发现,php网站都没有超过8核的,所以这个基准对任何一个内核数超过8的系统都是不准确的,不过它反映了实际环境中所发生的情况。测试结果显示出我们的文章开头提到的问题:很多服务器应用没有扩展超过8核或者16核。记住一点,就在4、5年前,8核设备的价格是非常高的。在不到5年的时间内,我们的服务器从双核发展到12核。不过很多情况下,软件都无法利用多核的优势,或者仅仅是不需要所有这些处理能力。双核皓龙2435和双核Xeon X5570(采用HT技术)的使用率在50%~60%。在这里,8线程的Xeon X55xx是最好的选择。#p#page_title#e# 渲染: 3ds Max 2008 操作系统:Windows 2008 Enterprise RTM (64-bit) 我们使用了SPEC APC 3DS Max测试中的“架构”情景。所有测试是在3ds Max的扫描行渲染下进行的,使用SSE并以HD 720p清晰度进行渲染。我们测量了从渲染10帧所需要的时间。我们记录下时间,然后计算出一个特定CPU架构在一个小时内可以渲染多少帧。报告结果记录了每小时渲染的图像,分数越高越好。 我们在64位 Windows 2008 RTM上使用32位版本的3ds Max 2008。64位版本的3ds Max 2008的速度有些慢(尤其是在在使用扫描行渲染的时候)。除特别指出外,所有CPU架构都是双核的。 这里我们看出,AMD Istanbul增加的两个内核几乎是没有用处。Xeon x55xx系列比16核CPU的性能高出了50%。3DS Max扫描行渲染无法兼容12核。CPU利用率从50%提高到80%。 我们相信一定有效率更高的渲染引擎,但是这并不是AMD六核CPU所定位的市场。基于Nehalem的Xeon对这种应用来说性能过于强大了。所以如果成本是你最关心的问题,那么你可以考虑主频为2.26 GHz的Xeon E5520,最便宜的CPU仍然支持超线程。以后我们将对这个进行测试,我们预计每小时能处理67个帧,仍然比任何一个皓龙处理器高出20%多。#p#page_title#e# 虚拟化:VMmark 一个新的服务器CPU如何很好地处理虚拟化决定了它将受到冷遇还是欢迎。虽然时间紧迫,我们还是设法创建了4个基于ESX 3.5 update 4的虚拟机和8个基于ESX 4.0 (vSphere 4 build 164009)的虚拟机。因为这是到目前为止新六核最重要的市场,所以我们也将大多数时间和精力放在这个方面。 这里有两个基准:VMmark和vApus Mark I。VMmark能够对常用的整合工作负载——文件服务器、数据库、文件服务器和有一些处理密集型Java应用的Web站点进行测试。一个虚拟机处于空闲状态,有代表性的工作负载必须是在线的,但并不执行很多任务(例如,一个域控制器)。简而言之,VMmark主要用于你希望在一个物理服务器上整合很多小型应用的情况。 虽然现在还没有官方的VMmark得分数据,但是AMD提供关于备份的幻灯片说明Opteron 2435的性能比Opteron 2384提高了41%。对于四核Opteron来说,最高的得分是11.28。 根据粗略估计,主频为2.6 GHz的四核CPU得分大约为10.9,也就是说增加两个内核带来性能上46%的提升。这几乎是很完美的,同时也表明虚拟服务器通过增加更多内核来提升性能并不困难,只要你有足够的内存空间。据我们在OEM那里得到的结果,超线程能带来大约30%的性能提升,也就是说,相比我们之前的基准测试,增加内核的方法比增加超线程能带来更显著的性能提升。Xeon X5570得分最高,但只是针对VMmark测试的。最好的Xeon仍然比最好的Opteron快了大约50%。#p#page_title#e# vApus Mark I:性能关键的虚拟化应用 如果你已经对数据中心实施了虚拟化,那么可能那些非密集型负载也已经实现了虚拟化。接下来呢?虚拟化厂商会积极地鼓励你对性能关键硬件实施虚拟化。你可以通过vSphere 4使用多达8个vCPUs和255 GB RAM,Xenserver 8 vCPU和32 GB RAM。Hyper-V仍然局限在4 vCPU和每个主机最多16个CPU。但是对于Hyper-V R2来说情况有所改变。底线是,如果能够更轻松地实现迁移或者管理的话,对处理密集型应用实施虚拟化还是有很大吸引力的。 这时候就用到了vApus Mark I:一个OLAP、一个DSS和两个密集型Web网站。现在有很多要求苛刻的应用仍然需要运行一年前使用的某些设备。vApus Mark I测试显示了如果实现虚拟化的话会发生什么情况。与之前的基准测试相比,只有一点改变了:我们使用大型页面,因为它通常被认为是最佳策略。性能提升了4%~5%。 我们的其他选择保持不变:如果可能的话,所有虚拟机都具备RVI和EPT;除特定要求外,不使用超线程。 vApus Mark I使用了4个运行4个服务器应用的虚拟机:一个运行在Windows 2008 64位版本上的SQL Server 2008 x64数据库,用我们自主开发的vApus软件进行测试;两个在Windows 2003 R2上运行PHP和IIS的处理密集型MCS eFMS,用我们自主开发的vApus软件进行测试;一个OLTP数据库,用Dominic Giles的Oracle 10G Calling Circle进行测试。 vApus软件运用人为操作来执行虚拟机测试,而不是用一些基准测试算法。首先让我们来看一看在最常用hypervisor——ESX 3.5 Update 4下的测试结果: 如果你只是将Istanbul插入你的虚拟化服务器中,那么你无法知道你运行的是六核还是四核。你可能还记得,主频为2.9 GHz的2389得分为203。让人失望的是,主频为2.6 GHz的六核CPU与主频为2.9 GHz的四核CPU得分没有太大差别。那么问题出在哪里?VMware ESX 3.5默认的是将可用内核分成4个内核大小的组,也就是所谓的单元。目的是为了保证虚拟机总是在同一个单元内,从而保证虚拟机总是在一个节点中。这会确保虚拟机总是使用本地内存(而不需要其他节点的远程内存),更重要的是,缓存总是保持“活动”的。如果维持4个内核大小的默认单元,那么一个或者多个虚拟机将在2路系统中被分割,在不同部分之间进行传输。一旦我们将单元大小从4个内核增加到6个内核,那么情况就完全不同了,丑小鸭变成了白天鹅。六核Opteron与最好的Xeon打成平手! 在这种情况下,Xeon x55xx显得有些相形见绌,因为ESX 3.5 update 4不支持EPT,而且没有针对超线程进行优化。从上面的测试中可以看到,超线程将得分提高了17%。根据我们从OEM厂商方面获得的数据显示,VMmark在ESX 4.0上提高了30%。这表明ESX 4.0能够更好地利用超线程。那么,让我们来看一看ESX 4.0的数据。 Nehalem提高的幅度不大。六核Opteron的性能降低了2%,这是在该基准的错误率范围内的,对最新的Opteron来说仍然是一个很好的结果:表明它与主频为2.66 GHz的Xeon X5550竞争是没有问题的。VMmark结果说明,当服务器上层虚拟机数量大幅增加的时候,最新Xeon Nehalem的优势就显示出来了。所以我们决定在8个虚拟机的环境下进行测试。你很有可能会在一台物理服务器上层整合超过10个性能关键应用,我们我们觉得8个虚拟机就能说明问题。只有一个变化:用于Webportal的内存从4GB减少到2GB,确保基准满足我们在Xeon X5570上设定最高24GB的范围。我们计算出两个相同虚拟机的平均结果(OLAP VM = (OLAP VM1 + OLAP VM5)/2) 可以发现,HT Assist是2路架构的性能“杀手”。有趣的是,随着虚拟机的增加,Xeon X5570的性能优势开始不那么明显。Xeon X5570比双核2435皓龙处理器快大约30%。这也给我们提供了一个为什么VMmark得分为什么这么极端的线索:大量虚拟机可能过于强调交换时间了。但即使是在负载较小的时候,也很难找到超过20个虚拟机位于DP处理器上层。 还有,在测试中,ESX Scheduler在32个vCPU上分配16个逻辑CPU。这比在32个vCPU上分配12个物理CPU容易多了。这可能在六核Opteron上带来时序安排的问题。 所以我们的测试某种程度上“更偏向于”Xeon X5570。 我们将vCPU的数量从4个减少到2个。这就意味着: -OLAP测试的4个vCPU增加一倍 或者总共24个vCPU。因此这个测试更倾向于Istanbul处理器。记住,我们的参考数据是基于4 CPU的原始得分。所以我们将参考数据调整为基于2 CPU的原始得分。OLTP和OLAP测试的参考数据保持不变。下面的测试结果与以前你所见的数据是没有可对比性的。这只是为了让你更好地理解我们得出的结果。我们计算出两个相同虚拟机的平均结果(OLAP VM = (OLAP VM1 + OLAP VM5)/2) 结果是,Xeon Nehalem这一次只快了11%。所以记住一点很重要,当谈到MP虚拟机的时候,vCPU数量与Cell大小之间的关系是非常重要的。#p#page_title#e# 能耗 我们的能耗数据是已提供的,所以不需要对能耗数据进行复查。粗略查看之后我们发现Opteron 2435设备比Xeon X5570的能耗低25~45W。如果总能耗是略高于300W的话,就是大约10%~15%。Xeon Nehalem在空闲状态下的能耗更低一些。 市场分析 与以往一样,我们将根据购买的服务器类型分情况进行分析。在这篇文章中可能有很多我们没有涉及到的领域,但是没有ERP基准测试的话,这些领域基本上是没有关联性的。HT Assist在四路架构中会提高带宽,但是在2路系统中必须禁用HT Assist。因此,六核处理器的每个内核的带宽更少,这就意味着大多数高性能计算应用的性能不会有所提升。基础架构市场需要在花费相同资金的情况下或者尽可能高的内存空间,而不是更多的处理能力。 所以这里就缺失了一块:ERP结果。SAP基准测试结果并不难预测:六核皓龙可能比四核Opteron 2389的SAP得分高出25%~35%,而这不会威胁到Nehalem Xeon的统治地位,它比后者快了将近81%。 OLTP市场也被Intel牢牢掌控。在我们的网站基准测试中情况更好一些,不过你会发现,这里一个Xeon X5570的性能与两个六核Opteron差不多。这里忽略了决策支持数据库和针对虚拟化采购的服务器两个因素,而后者是非常非常重要的…… 结论 六核Opteron在所有这些应用方面都是无法取代强大的Xeon处理器。Xeon处理器由于更高的主频、更高的IPC、超线程和更高的内存带宽而具有更广泛的用途。在OLTP、ERP、Web服务和渲染等应用下显然Xeon 55xx系列是更好的选择,毫无疑问,Xeon 55xx系列还将占领带宽密集型HPC工作负载。我们认为你在使用这两种应用的时候可以考虑AMD六核处理器:决策支持数据库和虚拟化。 自从发布ESX 3.5以来,VMware就不止一次表示像OLTP和决策支持数据库这样的性能关键应用在他们的hypervisor上有更好的表现。vSphere 4的多项升级让它成为那些处理密集型应用的更好选择。现在很多企业都开始对性能关键应用实施虚拟化,虚拟化这些应用可以让管理数据中心变得与管理精简整合应用一样很灵活。例如,VMotion可以被用于更快速更方便地迁移这些应用。 当然,性能关键应用从定义上看就是在处理能力方面要求更加苛刻。这就是vApus Mark I需要测量的:在被虚拟化之后,性能关键应用的性能有多大幅度的提升?这是AMD 2435一个有突出表现的新市场。主频为2.6 GHz的Opteron 2435在vApus Mark I测试中有让人惊喜的表现:在ESX 3.5 update 4上,它能够与售价更高的Xeon相匹敌,同时它的能耗更低,在vSphere 4上提供了具有很强竞争力的每瓦性能和性价比。在vSphere 4上,六核Opteron的速度比主频为2.9 GHz的Xeon X5570低11%~30%,但是Istanbul平台的整体成本低很多,而且在虚拟化环境下,主频为2.6 GHz的2435能耗更低。如果你对hypervisor进行了优化以很好地利用六核,那么六核Opteron是一个值得考虑的选择。我们只对2435与X55xx进行了对比测试。Xeon E5540 2.53与Opteron 2431 2.4 GHz的情况有些不同……两者都是有很强竞争力的,所以除了性能、价格和能耗之外还要考虑其他一些因素。 VMmark显示,Xeon X55xx在处理大量虚拟机的时候表现更突出。在很多情况下,服务器上的虚拟机内存容量比CPU更重要。这时候,低功耗的四核处理器会比六核或者主频更高的四核处理器表现更好。最后,六核Opteron在4路系统中也有很强的竞争实力。
Intel Xeon双核处理器“Gainestown”X5570,主频2.93GHz
ASUS Z8PS-D12-1U
6x4GB (24GB) ECC Registered DDR3-1333
NIC: Intel 82574L PCI-E Gbit LAN
Intel Xeon双核处理器E5450“Harpertown,主频3GHz
Supermicro X7DWE+/X7DWN+
24GB (12x2GB) Crucial Registered FB-DIMM DDR2-667 CL5 ECC
NIC: Dual Intel PRO/1000 Server NIC
Intel Xeon双核处理器X5365“Clovertown”,主频3GHz
Intel Xeon双核处理器L5320,主频1.86GHz
Intel Xeon双核处理器5080“Dempsey”,主频3.73GHz
Supermicro X7DBE+
24GB (12x2GB) Crucial Registered FB-DIMM DDR2-667 CL5 ECC
NIC: Dual Intel PRO/1000 Server NIC
AMD Opteron双核处理器2435,主频2.6GHz
AMD Opteron双核处理器8384,主频2.7GHz
AMD Opteron双核处理器2222,主频3.0GHz
AMD Opteron双核处理器8356,主频2.3GHz
Supermicro H8QMi-2+
24GB (12x2GB) DDR2-800
NIC: Dual Intel PRO/1000 Server NIC
Intel Core 2 Quad Q6600 2.4GHz
Foxconn P35AX-S
4GB (2x2GB) Kingston DDR2-667
NIC: Intel PRO/1000
软件:Oracle 10g Release 2 (10.2) for 64-bit Windows
基准测试软件:Swingbench/Charbench 2.2
数据大小:9 GB
典型出错率:2%~2.5%
软件:SQL Server 2005 Enterprise x64 SP3 (64-bit)
基准测试软件:vApus + real world "Nieuws.be" Database
数据大小:>100 GB
典型出错率:1%~2%
软件:MCS eFMS 9.2
基准测试软件:vApus + real world "MCS" PHP site
典型出错率:1%~2%
软件:3ds Max 2008
基准测试软件:Build in timer
典型出错率:1%~2%
-OLTP测试的4个vCPU增加一倍
-OLTP测试的2个vCPU增加一倍