面向大数据的分布式存储技术的发展与应用
摘 要
随着计算机信息技术与互联网信息技术的快速发展,计算机网络技术已经渗透进入各行各业,网络上的信息资源呈现爆发式增长,互联网信息技术的使用给我们的生活带来了极大的便利,但互联网上的信息十分庞杂,给使用者带来了巨大的困扰。大数据时代下的数据存储需求更加多样,传统的数据存储系统已经难以满足大数据存储的需求。本文将深入地研究基于大数据的分布式存储技术,并结合实际案例分析分布式存储技术的应用。
【关键词】分布式存储 大数据 发展 应用
根据数据信息学的理论研究,可以将大数据理解为一个数据集合,这个数据集合的规模远远超出了传统数据库软件可以处理的范畴,大数据具有3V特征:规模性(Volume)、多样性(Variety)、高速性(Velocity),近年来,学术界又在3V特征的基础上扩展出了4V特征:价值性、准确性、可变性、真实性。大数据的最核心的特征就是海量数据,数据容量超出了现有硬件的存储空间,IT行业的工作者必须保证数据存储的速度与增长的速度一致,否则可能出现数据管理失控现象。基于大数据的分布式存储系统具有较好的扩展性,可以最大限度地调用现有的存储空间,实现资源的最优化配置,同时有效降低数据存储的成本。
1 极限数据分布式存储技术
极限数据分布式存储技术以数据存储的性能为核心,具有极强的数据处理能力,可以保证数据的一致性,主要针对数据总量大、数据操作频繁的数据模式,比较常见的是飞机车票网站的存储系统、电子商务的存储系统等。极限数据分布式存储技术需要同时具备较强的数据处理能力与较高的处理效率,其核心设计理论是集散与扩展。
1.1 技术原理
现有的分布式存储系统主要包括了Hadoop与NoSQL,这两类数据存储系统已经广泛应用于各个领域,除了上述两种存储体系外,目前比较前沿的还有NewSQL技术,NewSQL技术的数据对象是结构化的数据,其核心理论与前两种一样,是对分散的存储空间进行优化,实现资源的最高配置。其主要区别在于NewSQL技术是关系型数据库技术,将大数据处理技术应用于分布式存储技术中,具有更好的扩展性与兼容性。NewSQL技术的最大特点是其主服务器模块常驻内存,属于典型的基于内存的分布式存储技术,其数据处理速度是传统数据技术的10倍以上。
1.2 典型系统
基于内存的分布式存储技术已经成为行业内的主流发展趋势,最具代表性的内存分布式存储系统是GemFire,该数据库系统采用了横向扩展模式,可以实现与现有数据库的无缝链接,GemFire将数据存储空间虚拟化,实现存储空间的集中管理,GemFire系统不需要特定的读写磁盘,具有极高的稳定性,可以最大限度的保证数据安全。目前,我国铁道部的12306网站已经使用了GemFire系统,改进后的数据库系统已经取得了较好的使用效果,为客户提供了优质的数据存储管理服务。
2 低成本分布式存储技术
2.1 技术原理
低成本分布式存储技术已经有很多种,其中以基于对象的分布式存储技术为典型代表,基于对象的分布式存储系统将Web服务协议纳入了体系中,实现了数据通道与控制通道的分离,基于对象的分布式存储技术中的对象都具有一定的智能性。基于对象的分布式存储技术的主体包括了对象与存储空间,这两个主体都具有固定的ID,系统没有区分对象的等级,因此不存在文件夹的概念。基于对象的分布式存储系统提供了比较抽象的接口,可以更加灵活地分切数据。基于对象的分布式存储系统的最大优势就是低成本,通过标准化的硬件存储基础压缩成本,系统的存储硬件包括PC服务器、SATA服务器等,而且能保证较高的稳定性与可靠性,但系统的扩展性与兼容性更差。基于对象的分布式存储系统可以进行连续数据扫描,具备一定的自检功能,有效提高了数据的准确性与安全性。
2.2 典型系统
基于对象的分布式存储系统已经比较成熟,以Swift为例,该系统可以分为两个组成部分,包括数据访问系统以及数据自检系统。Swift的数据访问系统的对外服务接口由Proxy Server提供,Object Server、Account Server、Container Server等模块又分别对应不同层级的服务,Ring模块主要提供了数据检索服务,Swift的数据自检系统也都有对应的模块。Swift框架的各个存储空间是平等的,系统框架呈现对称结构,系统的扩展性较好,其中的任何一个存储空间出现故障,都不会出现数据丢失的现象。
3 自定义分布式存储技术
自定义分布式存储技术为软件提供了个性化的数据存储服务,可以根据软件的需求改进系统,最大限度地满足了数据的多样化,最典型的自定义分布式存储系统是Ceph。Ceph系统的对外接口更多,为软件提供了更加多样的访问路径,包括数据块存储模式、文件存储模式以及对象存储模式等,Ceph系统极有可能替代现有的Cinder以及Glance等存储机制。Ceph系统的存储方案也是多样化的,包括支持Posix的CephFS存储系统、支持数据块的Librbd存储系统、支持对象存储的RadosGW系统等。Ceph系统将多种存储模式纳入了框架中,但该系统不支持大跨度的规模布置。基于大数据的分布式存储技术已经衍生出多种数据存储类型,需要根据用户的实际使用进行设计,为客户提供优质的数据存储管理服务。
4 总结
计算机信息技术与互联网通信技术催生出了新型的数据模式,传统的数据存储系统具有较大的局限性,不能对存储空间进行优化,导致存储空间资源的浪费。基于大数据的分布式存储系统结合了现有的分布式存储技术的优点,为客户提供了低成本、高效率的数据存储服务,基于大数据的分布式存储系统的本质是分布式存储技术与内存数据库技术的有机整合,该系统的核心是分布式对象存储,可以面对比较复杂的数据模式,简化了数据存储管理体系。本文对三种具有代表性的基于大数据的分布式存储系统进行分析,提出了可行的分布式存储方案,希望本文的研究有利于我国数据存储技术的发展。
参考文献
[1]胡健,袁军,王远.面向电网大数据的分布式实时数据库管理系统[J].电力信息与通信技术,2015,02:49-54.
[2]刘圆,王峰,杨明川.面向大数据的分布式存储技术研究[J].电信技术,2015,06:33-36.
[3]周江,王伟平,孟丹,马灿,古晓艳,蒋杰. 面向大数据分析的分布式文件系统关键技术[J]. 计算机研究与发展,2014,02:382-394.
作者简介
杨震乾(1976-),男, 云南省凤庆县人。大学本科学历。现在供职于云南电网有限责任公司信息中心。主要研究方向为信息技术应用。
作者单位
云南电网有限责任公司信息中心 云南省昆明市 650000