存储技术概述——集群存储
运用集群技术来扩展服务器的性能、容量、连通性和实用性已经没有什么可好奇的了。然而,集群存储就是另外一回事了。
什么是集群存储
在集群里,一组独立的节点或主机可以象一个系统一样步调一致地工作。它们不仅可以共享公用的存储阵列或者SAN,也可以拥有只有一个命名空间的公用文件系统。
最近的一些案例来自Cluster File Systems、Oracle、Red Hat以及新兴的Panasas和Spinnaker Networks公司等。Red Hat公司于去年收购了Sistina公司,该公司发布了适用于开放源码的集群Global File System。Network Appliance公司则收购了Spinnaker Networks公司,该公司目前正在使用其SpinCluster软件来改进网格战略,即对网络附加存储(NAS)以及SAN存储进行集群整合。Oracle公司也在该公司的真正应用集群(Oracle 9i RAC)上使用其Cluster File System。Cluster File Systems公司则使用其Lustre File System来建立高性能的集群。
在一些成功案例里,单独的服务器也是通过元数据服务器或设备与存储连接,元数据服务器或设备可以对数据进行很细的分类,以使这些数据可以很容易地找到。
更好的性能是一些用户使用集群文件系统的一个关键理由。某用户目前使用Lustre File System,他们通过构建的集群来进行科学仿真和模型建立工作,如今把两个1000节点的集群用于生产系统。以前,需要在每一个集群上安装文件系统,而且当有人需要数据时,经常需要把一个文件复制到另一个集群上去,文件系统之间频繁的FTP任务对整个系统的性能造成了很大的影响。而现在他们能够随时将数据从文件系统中调出来阅读,在不影响正常仿真任务进行的同时查看系统运行结果。
集群存储产品列表
集群存储的优势
通常,集群存储总是和高性能计算联系在一起,不过事实上,集群存储正快速被主流的商业环境所采用。这些商业领域被集群存储的优点所吸引。集群存储通过采用开放访问方法,如NFS和Windows CIFS,以及使用业界标注和第三方存储,对现有的技术和协议加以利用,如以太网、光纤通卡以及InfiniBand协议。
目前,发展速度最快的集群存储解决方法可能是网络附属存储(NAS)文件服务器。企业需要摆脱单一存储结构的限制,扩展到能够对结构化和非结构化的数据进行管理。这样的需求对集群NAS技术的部署起到一定的推动作用。
集群NAS系统在许多层面都具有可扩展的优势:
• 能够提高大型的序列带宽(吞吐量)的性能,或提高小型IOPS,即每秒输入输出次数(事务型)以及元数据查找的性能;
• 扩展存储容量;
• 提高基于本地或以分布式的可用性,与设备或站点故障相隔离;
• 扩展的灵活性,包括同时访问相同或不同的数据以及由于不同的应用需求对数据进行平行访问;
• 具有提供模块存储增长的扩展能力;
• 提供了易于管理任务的扩展性,例如存储的精简配置、负荷平衡以及数据保护。
NAS和文件集群服务的方法
大多数公司采用的集群技术应用于存储、文件系统和文件服务器。集群技术可以为存储系统增加待机或故障接管的能力,而这些能力反过来为大量的控制器、存储节点或处理器,以及集群文件系统提供扩展支持。讨论集群存储时产生困惑的一个原因是,既有基于块(iSCSI和光纤通道)和基于文件(NAS NFS和CIFS)的存储,虚拟磁带库,还有各种各样其它的集群存储解决方法。
集群文件系统能够让管理员跨应用服务器访问同一个存储池。同时,集群文件系统也允许对数据文件的共享访问(读取和写入),这样,无论是直接式存储还是网络存储,都有利于保持文件的一致性与完整性。现在的集群文件系统有SGI推出的高度可扩展性文件共享系统(CXFS),美国昆腾公司的归档软件(StorNext),Red Hat的全球文件系统(GFS),IBM的两种共享文件系统SFS和GPFS。并不是所有的集群NAS都有一个集群文件系统,也不是所有的集群文件系统都要依赖集群NAS服务器。有些系统(例如IBRIX公司的提供多用途文件系统解决方案的IBRIX Fusion)可以将这两者结合起来。 #p#page_title#e#
与传统的NAS文件服务器或集群存储系统相比,集群文件服务器的不同之处在于硬件与软件结合起来的方式。集群文件系统可以安装在应用服务器上,或者专门的设备或服务器上,将它们转化成为存储服务器(本质上变成一个集群文件服务器)。有的集群文件服务器,如惠普的PolyServe和IBRIX的Fusion,都是混合的系统,从而能够使集群式或者平行文件系统在符合业界标准的服务器上部署。
有的厂商拥有双重或多重存储控制器、存储引擎、NAS或者网关,使用主动/主动模式(两个控制器同时工作)还是主动/被动模式( 其中一个控制器是备用的)。他们声称具有集群存储系统。我想说的是,如果你将一对存储处理器或是控制器等同于一个集群,你就将不得不考虑每一个具有两个节点以上的存储系统是一个集群……这样的话,几乎包括了市场上所有的中档存储区域网络(SAN)、直连式存储(DAS)以及NAS存储系统。
还有更多的厂商能够提供集群NAS存储(换言之,超过基本的故障接管),更为重要的是,他们还可以提供集群文件服务器。NAS,就本质上来说,是一种安装在硬件之上的文件服务器的解决方案。有某些情况下,它具有能够将硬件转化成为集群文件服务器的能力。能够提供NAS硬件/软件的解决方案,同时支持集群文件系统和底层硬件的产品包括NetApp的GX,BlueArc的Titan以及Isilon和Panasas的集群存储产品.
Isilon和Panasas运用的是专有的处理器和存储器。BlueArc使用的是优化处理器,这些处理器附属于由多个厂商提供的底层RAID控制器,并且可以共享访问。还有的产品利用安装在符合业界标准服务器上的集群文件系统,将服务器转化为存储服务器,例如惠普的PolyServe和IBRIX的Fusion。
SAN文件系统
随着文件大小和数据规模逐步达到TB和PB,用户也开始寻找一种新的方法,以便在不同的主机之间存储、访问和共享文件。集群和存储区域网(SAN)文件系统也因此应运而生。
厂商们已经制造了一些软件和硬件设备,它们可以把不相干的文件系统融合成只使用一个命名空间的文件系统。用户可以访问并共享其他用户的数据,而无需考虑是什么介质或其所处的是哪台主机。
这些设备和软件所使用的技术就是人们所熟知的集群和SAN文件系统。与分布式文件系统相比,此类文件系统有如下几大优势:因为数据不需要从一个文件系统拷贝或复制到另一个文件系统,通过集群系统共享应用和数据的任务执行起来要比在单独的设备上执行快得多;集群可以为文件和文件系统提供更多的空间;因为只需要管理一个文件系统,而不再是每个存储设备或主机都需要一个文件系统,管理也更容易了;如果集群内的某台服务器出现了故障,另一台服务器就可以把它的工作接手过来,故障恢复也成为了现实;用户也可以同时对位于其网络上的存储设备里的所有文件进行访问。
尽管集群文件系统具有上述优势,但是,它仍有一些地方需要改进。
有用户评价说,集群文件系统非常复杂,此外,它们还需要技术人员很好的支持和专业技能来对其进行体系结构的设计,并使其运行起来。
与之相比,SAN文件系统能够把服务器与存储进行连接,并对文件系统环境进行“虚拟化”。
另一用户拥有的50TB数据是由ADIC公司的StorNext FS负责管理的。它正在进行科学镜像数据收集。
该用户的文件相对来说比较大,最大可达1GB,因此,使用分级存储格式来存储。其IT主管Terry Duncan说,“我们的大型系统里有数百万份文件。我们希望多个系统能够以非常快的速度同时查看相同的数据。”
Duncan说,使用SAN文件系统之后,管理更容易了。如果我们不能把文件编写到一个公用空间,以便让数个系统同时访问这些文件的话,就很难以我们需要的速度来处理这些数据;如果不能拥有单一的命名空间的话,就得花大量的时间来回移动500GB的数据并对其进行分析。