全面解析存储集群系统
集群技术应用于数据中心的服务器设备上已经有几年的历史了,效果显著;现在,它经过研发与实施,优势完全显露出来,应用范围逐渐覆盖了其它各类存储设备。
通过应用集群技术,不仅可有效提升数据中心服务器系统的稳定性、可用性及可管理性,同时,允许用户使用价格相对低廉的配置(如刀片)捆绑来替代昂贵的单块集成电路的高端服务器,在不影响性能的情况下节约了存储成本。服务器集群技术的种种优点引起了存储业界的高度兴趣,不过,由于应用领域不一样,在部署存储集群系统的过程中涌现出来的问题,与服务器集群系统是完全不同的。虽然各个存储供应商们所采取的解决办法不尽相同,但是,总体而言,目前市面上出售的存储集群产品主要分为两大类:一类是集群文件系统,一类是建立在集群的架构之上的独立硬件设备。
“以传统的中端存储系统为例,它的磁盘资源一般挺不了多久,就会被用得干干净净,”来自于企业策略集团(ESG)的高级分析师Tony Asaro介绍说。如果用户需要更大的存储空间,除了购买一套新的存储系统及相关的附属设备之外,用户并没有太大的选择空间。
注意:部署一套集群存储系统,并非意味着用户一定要配置服务器集群系统,虽然两种集群技术有着异曲同工之效,它们相互之间却是完全独立的。
51CTO存储频道在近期推出的“存储专家在线沙龙”活动,主题就是“FAN——基于文件的虚拟存储”,将由国家高性能计算机研究所工程中心主任许鲁给大家详细的讲解集群存储的应用与部署。
存储集群的来龙去脉
时值存储业界内到处热炒“存储集群”概念之际,不少投机份子纷纷加入混水摸鱼之列。所有的存储供应商都纷纷鼓吹自家的硬件设备或软件工具是集群技术的“结晶”——也就是说,它们的产品可以融入任意的存储环境内。这显然有点儿言过其实了,它们中大多数仅仅只能算作是集群应用程序,即使能够与一些厂商的存储系统共享访问数据和工作负载,但也是有一定局限性的,不可能与市面上所有的存储产品都实现无缝兼容。
企业存储管理员们在日常工作中经常会遇到四大类问题,分别为容量可扩展性、性能可扩展性、可用性、可管理性。虽然不是绝对的,但是,这4类问题确实“催生”了许多存储集群产品。老实说,几乎所有的存储系统都是围绕着如何解决这些问题而设计的:
·容量可扩展性。在不干扰系统正常运作的情况之下,接入新的磁盘阵列,扩大系统的存储容量。
·性能可扩展性。随着系统容量的不断扩大,支持的主机服务器数量不断增加,系统整体的性能也应该有相应的提升,否则很难维持正常运作。
·高可用性。冗余的存储组件和透明化的容灾恢复操作,可确保备份数据的高可用性。
·可管理性。系统升级、数据容灾恢复、存储资源管理,都应该尽可能地实现自动化操作。
以上四类问题,可通过不同的途径来加以解决,不过,集群存储系统的工作原理基本上都是大同小异的,比如说,所有的设备被整合到一个虚拟的存储池,组成一个透明化的全局文件系统,整个集群系统只能分配到一个驱动器盘符。一来缓解了存储管理压力,二来提高了现有磁盘资源的利用率。此外,还增加了服务器共享数据的能力,避免了因相同文件被重复备份而造成的不必要的资源浪费。
集群的概念
两台控制器耦合在一起,互为冗余,如果其中一台设备发生了故障,另一台将会自动顶替上,维持业务的连续性,这就是最简单的集群形式。凡是支持active-passive工作模式的冗余双控制器配置方案,两台控制器中总有一台一直处于备用状态,从控制器并不会分担主控制器的工作负载,而且系统容量是无法扩展的,所以,active-passive方案又被称作“伪集群”。而支持active-active工作模式的冗余控制器配置方案,则是在仿集群的基础之上向前迈进了一步,在两台控制器之间实现了双向的失效切换和负载均衡分配。 #p#page_title#e#
在非分布式的active-active集群系统中,集群成员共享一个文件系统及其它的物理设备资源,它最大的缺点就是:给指定控制器分配存储资源及逻辑单元号(LUN)的工作,主要由存储管理员来完成。分布式集群系统是目前大多数存储厂商最喜欢采用的架构,在设计和搭建系统方案时不需要受任何条条框框的限制。在分布式集群中,所有的物理存储资源都被整合到一个虚拟的存储池内,管理员们只需要留意一下存储设备与服务器的连接方式,以及它所运行的应用程序类型就可以了,诸如配置存储资源之类的琐碎事情都由系统自动处理,不需要管理员插手。
单一的文件系统
目前市面上有几款适合于集群存储系统的全局文件系统工具,IBM公司推出的SAN文件系统(SAN FS)就是其中的佼佼者。这类程序一般运行于某台存储设备或带有客户端程序的智能交换机上,在其支持的主机服务器上运行,共同构成集群存储系统的核心组件——全局文件系统。
SAN FS及其同类产品采用的是双交叉(two-pronged)的处理方式:以IP网络连结多点的服务器,让分布式的储存网络能够像单一的服务器本地文件系统一样运作,不管数据所依附的是那一套操作系统,该软件都会持续追踪描述性的信息(descriptive information)──也就是所谓的元数据(metadata,即:文件内伴随实际内容而有的一些信息,如实体位置、文件大小、访问权限,等等)。这样一来,就可以依照即定的策略,实现相连的各存储设备间的数据迁移,从而提高了系统整体的资源管理水平和分层存储的效率,有助于推动信息生命周期管理的实施进程。SAN FS可与运行Windows、Linux、Unix等主流操作系统的服务器协同作业,不过,必须使用IBM的存储系统来存放元数据;它可以支持各种后端存储系统,如果与IBM的SAN卷管理器(SVC)搭配使用的话,就可以与其它厂商的磁盘阵列互通。
除了IBM的SAN FC之外,目前市面上发售的集群文件系统软件还有Ibrix Inc.的Fusion、PolyServe Inc.的Matrix Cluster、Red Hat Inc.的Global File System (其前身为Sistina GFS)、 SGI的InfiniteStorage Shared Filesystem CXFS和Veritas Software Corp.的Cluster Server。它们都是基于主机的应用软件,可将SAN网络中分布的服务器集群在一起,提供一个统一的管理界面。
集群文件系统(即:软件集群产品)之所以受到用户的追捧,主要是因为它们能够支持多厂商的存储设备,让用户以往的投资不至于被浪费。相比之下,如果采用硬件集群系统的话,就需要添置新的硬件设备,费用比较大。
当然,并不是说所有的集群存储系统都需要采用虚拟化技术或全局文件系统。Evaluator Group公司的资深合伙人兼首席分析师Randy Kerns是这样点评SAN FS的:“它是一套类似于存储虚拟化的元数据服务器。”SAN FS虽然是集群系统中的关键组件,却并不是集群系统的全部。“它是实现全局命名空间的一种途径,”Kerns强调说,“不过,谁也没有规定,全局命名空间一定要跟集群存储挂上钩。”
软件集群与硬件集群的对比
1、集群解决方案(基于软件的集群产品)
优点:可与企业现已部署的存储设备协同工作;可被应用于异构存储系统;提高了服务器的容灾容错水平。
缺点:无法提高存储系统的容量和数据传输速度;无助于提升存储系统整体的冗余程度和容灾水平。
2、集群存储系统(基于硬件的集群产品)
优点:可提高存储系统的容量和数据传输速度;可通过单一的控制平台来管理所有集群的存储设备;不要求安装服务器软件。
缺点:不适合于企业级应用;需要重新购买硬件设备,不能与企业现有的存储阵列集群在一起。