关于分布式存储应用技术的应用
摘 要
随着我国计算机信息化建设的不断推进,互联网数据规模越来越庞大,传统的数据存储技术已经难以满足用户的使用需求。目前,我国已经有很多企业开始应用分布式存储系统,分布式存储可以对大量的数据进行存储与管理,提高了信息存储与管理的效率,同时降低了信息管理的成本。但现有的分布式存储系统仍然存在较多的缺陷,本文将深入地分析分布式存储技术的特点与应用,并根据使用需求提出可行的应用方案。
【关键词】信息管理 分布式 存储 结构化数据
随着数字信息化技术的普及,人们使用互联网的成本越来越低,我国的互联网数据呈现爆发式增长模式。根据相关研究,全球的数字信息数据平均两年增加一倍,2011年,全球互联网数据总量突破1.8ZB,传统的数据存储模式过于依赖人工管理,对管理人员的素质要求较高,但IT从业人员的增长速度远远难以满足数据存储管理的需求,传统的数据存储系统包括了直链式存储(DAS)、网络附属存储(NAS)以及存储区域网络(SAN)等,这些存储系统缺乏数据共享平台,对海量数据的存储管理缓慢,同时难以保证数据的安全。分布式存储可以有效解决以上问题,为客户提供优质的信息存储管理服务。
1 分布式存储简介
分布式存储技术是一个与集中式存储技术相对的概念,传统的集中式存储技术将信息数据存储在了特定的节点上,而分布式存储技术则是利用网络的优势将零散的存储空间模拟成一个整体,并将数据存储在这个虚拟的存储空间中,实际上数据已经被分散在了各个存储器重,并非某些特定的节点。分布式存储管理系统是基于分布式存储技术建立的数据资源管理系统,系统将分散的存储空间进行整合,利用多台服务器分散存储负荷,有效保证了系统的可靠性、可用性与安全性,分布式存储技术的最大特点就是“分散存储,集中管理”。
2 结构化数据的分布式存储
不同的系统具有不同的数据类型,结构化数据是计算机信息技术的基础数据,通常情况下,结构化数据存储在Oracle、SQL Server等关系型数据库中,当信息数据超出了单个节点的存储能力时,系统一般采用扩展的方式解决存储空间问题,存储空间一般呈现垂直或者水平扩展。
2.1 垂直扩展
垂直扩展是根据数据的功能进行分类,将同类型的数据存储在指定空间中,最后对完整的数据库进行分割,实现存储空间扩展的目的,这种扩展方式要求数据具备较好的独立性,数据功能之间的交叉越少越好。
2.2 水平扩展
水平扩展是根据数据行的规则进行分割,将同行的数据分配到指定的数据库中,除此之外,还可以按照特定的规则对数据进行分割,将具有一定共性的数据分配到相同的数据库,比如按照数据字段的hash值进行分割。
3 非结构化数据的分布式存储
Google公司已经开发出了一款具有代表性的非结构化数据的分布式存储系统,该系统名为谷歌文件存储管理系统(Google File System,GFS),下面结合谷歌文件存储管理系统分析非结构化数据的分布式存储系统的特点。谷歌文件存储管理系统主要分为三个功能模块,包括主服务器模块(Master)、客户端模块(Client)以及数据块服务器模块(Chunk Server)等。
3.1 主服务器模块
主服务器模块主要用于存储元数据,包括了文件系统的目录结构以及文件相应的位置信息,主服务器模块相当于分布式存储系统的“中枢”,与记录着每一个数据块的详细信息,除此之外,主服务器模块还会定期更新这些信息,通过周期性的扫描,保证数据的准确性;
3.2 客户端模块
客户端模块实际上是主服务器模块预留的接口,应用程序可以通过这些接口访问系统,应用程序调用的数据以库文件的形式进行传递,当然,这些库文件是应用程序可以直接读取的,同时库文件与数据库具有一定关联性,可以与数据库进行链接;
3.3 数据块服务器模块
数据块服务器模块负责具体的存储操作,将文件的按照标准的大小进行分割,而数据块就是数据块服务器模块中的最小存储单元,一般取值为64MB,再将每一个数据块分割成64KB,一般的非结构化数据的分布式存储系统具有三个数据块服务器模块,具体的数量徐涛根据系统与数据的规模进行划分。
4 半结构化数据的分布式存储
目前,全球范围内的分布式存储系统一般是针对半结构化数据的,半结构化数据具有一定的规律性,同时可以根据数据的规模灵活处理,数据可以根据设计需求进行定义。现有的半结构化数据的分布式存储系统比较多,需要根据企业与客户的需求进行构建,主流的方案主要有四种,包括NoSQL数据库、Mongo DB、HDFS以及SWIFT。
(1)NoSQL数据库的中文名为非关系数据库,可以不依靠固定的关系建立数据模型,具有较好的数据扩展伸缩性,最重要的一点是可以支持定制存储,灵活性极好;
(2)Mongo DB实质上是基于JSON的非关系型数据库,数据库中的格式是BSON,具有较好的调阅性与解析性,同时可以应用于多个系统平台中,具有极强的兼容性,比如Windows、Linux等。
(3)HDFS可以支持流式访问的超大型文件,具有较好的复制性,系统构建成本较低;
(4)SWIFT属于对象存储系统之一,具有极强的扩展性与持久性。
5 总结
进入21世纪以来,我国的计算机信息技术与互联网通讯技术已经取得了较大的成果,网络的发展催生出大批的新兴网络文化,网络文化带来了大量的信息数据,人们在参与网络社会活动时产生的数据是人类文明的重要组成部分。企业的数据往往与资金或者项目具有一定的关联性,这些信息将直接支撑企业的运营,对于提升企业的竞争力具有重要意义,信息存储管理体系必须符合企业的实际需求,以企业与客户的需求为出发点。分布式存储系统具有更高的安全性,可以实现信息资源优化,最大限度降低企业的成本,本文从分布式存储的概念入手,详细介绍了几种可行的分布式存储系统,希望本文的研究有利于我国分布式存储系统的发展。
参考文献
[1]王成山,武震,李鹏.分布式电能存储技术的应用前景与挑战[J].电力系统自动化,2014,16:1-8+73.
[2]郭栋,王伟,曾国荪.基于一致性树分布的数据分布式存储方法[J].计算机应用,2013,12:3432-3436.
[3]祝凯.基于P2P的分布式存储系统研究[J].中国传媒大学学报(自然科学版),2008,03:37-41.
作者简介
钏涛(1975-),男,云南省昆明市人。学士学位。现供职于云南电网有限责任公司信息中心,主要研究方向为信息技术应用。
作者单位
云南电网有限责任公司信息中心 云南省昆明市 650217