分布式存储系统
在大数据分析的浪潮下,我国科研机构近年来的数据量呈现明显的爆发性增长。大数据的搜集与分析能够从庞大的数据源中剔选出过去难以察觉的趋势与方向,为科研领域的探索和突破指明了一条新的道路。然而,大数据对信息及数据的存储与管理也带来了诸多新的难题。首先,爆发性增长的海量信息对存储设备的读写性能及扩展能力都提出了更高的要求。其次,大数据分析所带来的庞大历史数据的安全问题也变得尤为重要。过去传统的存储基础架构是否在新时代已显得捉襟见肘,而基础架构的改造升级又该何去何从?我们将从存储虚拟化这一角度入手,来探讨在大数据时代下我国科研机构数据存储的未来发展方向之一。
1我国科研机构数据存储架构的现状与问题
随着我国科研机构的不断发展,各种信息化相关应用及大数据搜集平台的快速增加,加之原有的网站系统、OA系统等都同样运行、存储在本地的业务中心,原有的基础架构早已不堪重负。在数据爆发性增长及信息系统的安全性、连续性要求越来越高的双重压力下,原有的存储体系架构及其运维管理逐渐跟不上发展的脚步,主要体现在以下几个方面:
第一, 在现有的存储网络架构下,随着数据量的快速增长,服务器和磁盘阵列数量都随之快速增长,对于这些不同品牌、型号、容量、性能的磁盘阵列的管理越来越复杂,导致存储资源利用效率不高、存储读写性能瓶颈、存储空间扩展困难、数据跨存储存放和迁移困难等。
第二, 早期的业务连续性(高可用性)多采用服务器端双机集群来保障,而数据则存放在一台共用存储中,存储的单点故障往往被忽视了。尤其是,近年来随着服务器虚拟化、云计算技术的迅速发展,绝大多数电力企业内配置了虚拟化服务器,将大量应用迁移到虚拟机上运行,而虚拟机以文件的形式集中存放在一台公共存储中。如此一旦存储设备发生故障,业务应用往往要花较长时间恢复,甚至大量运行在虚拟机上的应用将无法恢复。
第三, 由于业务数据重要性提高,传统的依托备份软件的数据备份方式已无法满足数据安全保护的要求。采用备份软件定期对业务数据进行备份,备份周期较长,备份数据的正确性无法验证,一旦发生故障,不但恢复时间长,而且数据丢失量较大。
因此,结合以上问题,我们希望能够找到一种方法,在能够对原有设备、系统进行最大化程度利用的前提下,改变存储管理模式,简化存储分配,提升存储的读写性能、安全性与可用性,而存储虚拟化无疑是一种不错的选择与方向。
2存储虚拟化技术及其分类
权威组织SNIA(存储网络工业协会)对存储虚拟化的定义:通过对存储(子)系统或存储服务的内部功能进行抽象、隐藏或隔离,使存储或数据的管理与应用、服务器、网络资源的管理分离,从而实现应用和网络的独立管理。通俗点说,存储虚拟化就是把多个、多种存储设备通过一定的方式统一管理起来,提供大容量、高数据传输性能的存储系统。这种技术带来的好处主要有:减少存储设备数量,提高资产利用率,增加可管理性、灵活性和可扩展性,降低成本、绿色运营。
根据在网络中实现位置的不同,目前存储虚拟化技术主要分为三种:基于主机侧、基于存储设备侧、基于网络层实现的存储虚拟化技术。
基于主机侧的存储虚拟化
基于主机侧的存储虚拟化的实现方式是由主机操作系统下的逻辑卷管理软件或者安装专门卷管理软件方式来实现。这种技术可以使服务器的存储空间跨越多个异构的磁盘阵列,常用于在不同磁盘阵列之间做数据镜像保护。这一方式的缺点是主机需要安装卷管理软件和数据保护软件,系统运行需要占用主机资源,对现有业务冲击大,且后续维护和扩展比较复杂。
基于存储设备侧的存储虚拟化
基于存储设备侧的存储虚拟化实现方式是在存储控制器上添加虚拟化功能,常见于中高端存储设备。这一技术主要优点是与主机无关,不占用主机资源,其缺点是要求存储设备必须具备所需功能,一般要求组网存储设备为同一厂家甚至同一系列的,扩展性较差。
基于网络层实现存储虚拟技术
基于网络层实现存储虚拟技术是通过在存储域网(SAN)中添加虚拟化硬件实现,这一技术被用来整合异构存储系统和统一数据管理。其优点是与主机无关,不占用主机资源,且支持异构主机、异构存储设备。采用基于网络层实现存储虚拟技术可以显著提高存储设备总的利用率,简化管理,系统可扩展性好。
3虚拟化存储改造方案
我国科研机构服务器数量较多,普遍存在Windows2003、Windows2008、Linix等操作系统,且一般都有2个以上不同品牌的存储设备。因此,基于提高异构存储统一管理能力,消除存储设备单点故障的目标,我基于网络层实现存储虚拟技术是最合适的选择,具体方案如下:
存储虚拟化管理:采用两台存储虚拟化网关(双活,互为主备),实现对异构存储设备(磁盘阵列)的虚拟化管理。存储虚拟化网关将所有的存储设备资源池化,存储设备可随意移入或退出虚拟化,虚拟化过程不破坏数据,没有数据迁移过程,大幅减小停机时间(分钟级)。存储系统的LUN不是直接映射给服务器,而是映射给存储虚拟化网关。存储虚拟化网关把不同存储系统多个虚拟磁盘进行统一管理后再将存储卷映射给服务器。通过存储虚拟化网关,可以完成对企业现有的存储及今后采购的存储统一管理以及统一数据保护,同时支持跨存储在线迁移,零停机,大大简化了存储区域网络架构,而且通过对存储虚拟化网关的缓存大小控制,可显著提升了吞吐性能。拓扑见下图。
存储高可用容灾:
通过存储虚拟化网关进行存储虚拟化整合后,虚拟化网关本身互为热备,一旦其中一台发生故障,另一台可立即接管其存储管理功能,从而不影响前端的应用。此外,存储虚拟化网关支持镜像、快照、持续数据保护、卷复制等功能,可实现对关键业务数据的容灾保护。在信息中心,可通过存储虚拟化网关的同步镜像功能、卷复制功能,将一份数据同时写入两台存储(两个卷),实现存储系统间的高可用。使用存储虚拟化网关进行跨存储系统镜像后,对于服务器获得的存储卷来说,不会因为任何一个磁盘存储系统的故障而导致业务宕机或数据丢失,有效避免存储设备单点故障所导致的数据丢失和计划外停机。
逻辑错误的恢复:
在部署虚拟化网关前,原有存储系统缺少了对业务系统逻辑错误的防护,实际上无法解决概率最高的人工错误型的灾难。虚拟化网关具有“连续快照功能”,快照频率可达分钟级甚至秒级,实现了对业务系统“逻辑错误”的防范及纠错功能,对业务系统的正常运转提供有力保障。一旦发生误删除、病毒感染等任何逻辑错误,管理人员都可以找到最近的版本立即恢复。快照恢复与数据量无关,大数据量提取即刻可用。
存储虚拟化逃生:
实施存储虚拟化改造后,万一存储虚拟化网关发生故障,会不会对存储及数据造成影响?这是所有人都很关心的问题。虚拟化网关应支持快速的接入和迁出组网环境的方案。该方案提供了一种双向的操作网络部署环境的功能,能够通过对实施存储环境的控制而达到快速把虚拟化网关接入到存储网络中,启动存储虚拟化功能;或者当虚拟化网关故障或其它需要把存储系统迁出虚拟化平台,屏蔽虚拟化功能,恢复原用存储网络。具体来说,就是在虚拟化网关出现故障后,对原有存储原始磁盘镜像重新分配。去除存储与原有存储的镜像关系,把“虚拟磁盘”分离为原始磁盘,并重新指定存储系统磁盘映射挂载到服务器上,服务器即可识别新加入磁盘,恢复系统业务。
应用容灾保护:
通过存储虚拟化网关的卷复制、CDP等应用保护功能,可以对关键业务物理服务器进行实时镜像和快照保护。当被保护服务器发生故障或数据丢失时可直接挂载存储虚拟化网关上的同步数据或历史快照数据,5分钟内即可恢复业务运行。
4实施效果
通过架设存储虚拟化网关,对原有的SAN存储区域网络实施优化改造,使得存储系统具备了资源池化、按需分配、弹性扩展、统一维护等云计算特性,同时,也去除了存储单点故障,建立了一套开放的、高效的本地灾难保护系统,有效的提高信息系统的实时数据保护能力和抗灾能力,保证业务系统的连续性。对比实施前后,效果如下:
科研机构的成果关系到国家各个环节的发展与未来,而能否利用好大数据分析这一新时代的新武器,对科研成果的影像也举足轻重。工欲善其事,必先利其器,对旧有的存储基础架构进行升级改造,将大数据分析这一利器发挥其应有的威力,无疑是各科研机构IT负责人员必须考虑的问题。推进存储虚拟化解决方案的导入,实现“池”化管理和统一再分配,可以有效提高我国科研机构的运行支撑能力。存储虚拟化不失为我国科研单位基础架构完善的新方向与新选择。
柏科数据
产品解决方案
PRODUCT SOLUTIONS
最近案例
CASE STUDY