首页 文学文摘 时政新闻 科技科普 经济法律 健康生活 管理财经 教育教学 文化艺术 社科历史

基于网格的数字图书馆资源组织模式构建

作者:王春梅 来源:现代电子技术

摘 要: 在网格环境下,对数字图书馆资源进行有效的组织为网格系统服务提供了工作准备,是用户获取信息的基础。针对网格资源异构性、分布性、动态性的特点,构建出一种全局/局域分层式数字图书馆资源组织模式,该模式避免了资源发现的盲目性, 缩短了资源的查找时间,同时通过对局域资源服务器的实时监控,使检索结果按特定规则排列,大大提高了资源的利用率,有效地提高了网格系统的性能。

关键词: 数字图书馆; 网格; 组织模式; 调度

中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2016)02?0049?04

Construction of digital library resources organization mode based on grid

WANG Chunmei

(Jilin Agricultural University, Changchun 130000, China)

Abstract: The effective organization for the digital library resources in the grid environment can provide the work preparation for grid system service, which is the base for users to get the information. According to the heterogeneity, distributivity and dynamics characteristics of grid resources, an organizational mode of global / local layered digital library resources is constructed in this paper. This mode can avoid the blindness of the resource discovery and shorten the search time of resources. The real?time monitoring to the local resource server can make the search results to be arranged according to specific rules. It improved the utilization of resources greatly and enhanced the performance of the grid system effectively.

Keywords: digital library; grid; organizational mode; dispatch

0 引 言

网格(Grid)技术是以电力网为思想理念,在互联网的基础上产生和发展起来的一种新兴的信息技术。把网格技术引入到数字图书馆建设中,实质就是通过建立虚拟的网络环境,把整个网络整合成一台超级计算机,这样不仅可以实现数据、文献、设备、信息等资源的全面共享,还可以处理人机交互、人工智能、资源异构、分布式系统等方面的问题。所以,网格技术一经出现就引起了研究人员的广泛关注,必将引起继Internet,Web之后的又一信息技术革命。

网格技术环境下数字图书馆的资源数量巨大,且存储于各地,具有分布性、异构性、动态性等特点[1]。面对这些纷繁芜杂的信息资源,如何利用网格技术的特点寻求一种规则,即组织与调度模式,把网格资源按特定的规则统一组织、调度,从而为用户提供服务,是用户获取图书馆信息资源的基础,也是网格技术在数字图书馆中应用时所要解决的关键问题。为此,学者们进行了大量的研究。文献[2]综合考虑了虚拟机迁移时间以及再分配计算时间2个因素,提出了一种动态调度时间的资源管理优化方法。文献[3]以单个虚拟资源作为资源动态再分配的基本单位,根据云应用的负载变化,为负载动态变化的云应用提出了一种动态资源分配模式。文献[4]针对数字图书馆资源调度和负载平衡问题,提出一种基于系统的资源量与平台整体性能的云计算资源调度策略,具有较高资源调度和分配能力。文献[5]根据数字图书馆资源聚合中存在的问题,提出了基于关联数据的聚合方法与聚合模式。运用关联数据实现数字图书馆的资源聚合,能更好地为用户提供个性化制定与资源推送服务。

结合图书馆资源利用实际情况,针对网格资源异构性、分布性、动态性的特点,为了避免资源发现的盲目性,节省查找资源的时间,本研究在现有图书馆资源组织与调度的基础上,提出一种全局/局域分层式数字图书馆资源组织与调度模式,同时对局域资源服务器进行实时监控,以提高资源的利用率。

1 网格环境下数字图书馆信息资源的构成

网格环境下数字图书馆信息资源包括硬件资源、软件资源及各种信息资源等。其中硬件资源又包括用于计算,存储、通信等相关功能的设备资源,比如用于计算功能的CPU,用于存储功能的磁盘,用于通信功能的交换机;软件资源包括计算机的操作系统,各种应用软件等资源,比如Windows系统和WPS软件;信息资源包括网络资源和实体资源,比如电子图书和实际出版物等,具体的数字图书馆信息资源结构如图1所示。

图1 基于网格的数字图书馆信息资源的构成

可见,网格中包括了各种各样的形式与功能各不相同的资源,这些资源都可以通过网格被用户访问和共享。所以,如何组织和规划好网格中海量的信息资源,为用户提供更便捷、更快速、更准确的网络服务是网格环境下数字图书馆信息资源组织的关键。

2 网格环境下数字图书馆资源组织模式

资源的组织是指根据资源本身的特点,依据各种工具和方法制定一定的规则,对资源的内部或外部特征进行描述、整合、排列及组合,使资源按规定的秩序和规律进行分布和存储,以满足人们对图书馆资源的需求。

2.1 数字图书馆资源组织的一般模式

2.1.1 传统数字图书馆资源组织模式

传统网络中数字图书馆的信息资源提供者仅限于本地域,最大的特点是资源来源比较单一,不具有异构性,组织模式比较简单。所以在传统数字图书馆的资源组织模式下,可供用户共享的资源数量和种类都较少,有一定的局限性。如图2所示为传统网络环境下数字图书馆信息资源的一般组织模式[6?7]。

由图2可知,由于该模型结构过于简单,资源组织信息实行集中式管理,并记录在同一数据库中;所以图书馆用户检索到的信息资源是有限的,无法实现分布的、异构的、动态的信息资源之间的共享,使用户在资源的使用上受到很大的限制和约束。

图2 传统网络环境下数字图书馆信息资源的

一般组织模式

2.1.2 基于网格的数字图书馆资源组织模式

与传统数字图书馆相比,网格环境下数字图书馆信息资源来源不同,分别存储于世界各地,资源呈分布状态;网格中的信息资源种类繁多,数量巨大,不仅存储的系统不同,其访问接口、操作平台,访问规则等也各不相同,所以表现为异构性;网格中的资源不是一成不变的,资源提供者可以不断加入和更新资源,也可以删除已提供的资源,所以用户可以共享的资源是不断变化的,呈现出动态性。

针对网格环境下信息资源的这些特点,寻求一种合适的信息资源组织模式,成为大家关注的焦点。对于网格技术下数字图书馆资源组织模式的构建,国内外研究人员都进行了大量的研究工作,并提出了许多行之有效的资源组织模式,取得了比较满意的效果。其中最常见的资源组织模型多采用分层结构,如Globes, CCS等[8?11]。它的基本理念是把所有资源分成若干功能层进行管理,不同层具有不同的功能,并且上一层可以利用下一层提供的服务实现自身的功能,有较强的适用性。如图3所示为美国的Digital Library Grid项目提出的数字图书馆资源组织结构。

在此组织模型中,信息资源的提供者,即网格中各个相互独立的数字图书馆作为提供资源的基本单元,分布于网格节点的各处。在各节点处把这些资源包含的内容、属性等信息以元数据的形式采集出来,并把这些元数据收集、整合到一起,再按照一定的规则和机制,把元数据进行描述、命名后分别存储在不同的元数据索引节点中。当用户向数字图书馆系统提出检索资源请求时,系统首先对其请求内容进行分析,然后将请求内容按一定的分发机制分送至各个元数据索引节点,由这些节点并行地执行申请任务,并通过资源发现与调度最终将匹配到的检索结果返回,提供给用户使用。

毫无疑问,这种资源组织方式可以使用户访问整个网格系统中的所有资源信息,实现资源共享的目的。但这种结构模式可能造成在资源访问过程中一个索引节点上的数据与多个位置的数字图书馆资源相对应,在进行资源调度时这些资源就可能被同时提取,并且在提取的资源中可能包含了大量的相同资源,这样就增加了网络传输流量,容易造成数据堵塞,产生瓶颈效应,影响检索速度。

图3 Digital Library Grid数字图书馆资源组织结构

2.2 网格环境下数字图书馆资源组织模式设计

针对以上问题,并结合网格资源的特点,本文以数字图书馆资源组织的一般模式为基础,设计了一种新型的网格环境下数字图书馆资源组织模型——全局/局域分层式组织模型,其结构如图4所示。

图4 全局/局域分层式资源组织模型

该模型结构主要由3个层次组成,即网格资源节点层,局域资源服务器层和全局资源服务器层,每个局域资源服务器与其对应的网格资源节点构成一个独立的资源自治域,如虚线所围区域。

全局/局域分层式组织与调度的程序代码如下:

伪代码:

void work()

{

Search_type=用户检索资源类型;

Search_information=用户检索资源内容;

Switch(Search_type)

{

Case 1:work_1(); break; //执行纸质资源检索函数

Case 2:work_2(); break; //执行电子资源检索函数

Case 3:work_3(); break; //执行硬件资源检索函数

} }

Void work_1() //纸质资源检索函数

{ Search1(ID,Search_information);

}

Void work_2() //电子资源检索函数

{

essayurl=searchindex2(Search_information);

//获得电子资源访问入口

provide(essayurl);

//根据电子资源访问入口提供相应电子资源

}

Void work_3(Search_information) //硬件资源检索函数

{

information=getsort(Search_information);

//获得硬件资源使用情况排序

assignment(information);

//根据硬件资源使用情况分配相应硬件资源给用户

}

在该网格资源组织模型中,每个资源节点中的信息资源按一定规则进行资源描述和命名,然后存储于对应的局域资源服务器中。全局资源服务器的功能是对局域资源服务器中的信息和资源进行划分、管理及监控,负责收集各个资源域的数据情况,这些数据包括资源本身以及对资源的描述、命名等信息,也包括资源域中各设备的使用情况,比如CPU使用情况、某一资源同一时刻的调用率及共享情况等;同时,全局资源服务器把用户检索请求按一定分发机制分配给各个自治域执行。自治域按照请求寻找相应信息,提交给全局服务器,全局服务器对提交的资源信息进行进一步核审、过滤,并统一调度,把最合适的检索结果提交给用户使用。用户要检索的某一信息,可能大量被发现,并分别来源于不同的自治域中,这时全局资源服务器会根据每个自治域中该信息的调用情况及域中服务器的CPU等设备的使用情况进行过滤排序,把调用率最小、服务器的CPU利用率最低的资源优先提交给用户使用,使要提交的服务呈队列状态。

本文设计的全局/局域分层式资源组织模型具有以下优势:

(1) 资源查询过程采用并行查询方式,以提高查找速度。对于用户提交的检索请求,全局资源服务器以并行方式同时把申请分发给各个有相关资源的局域服务器,并把找到的资源信息同时传回到全局服务器进行过滤和排列。这种方式无疑提高了资源的查找速度,节省了用户的作业时间。

(2) 对自治域中的信息资源进行时时监控,动态的提交检索结果,提高了资源的利用效率。对于同样的信息,可能分布于不同的区域,这些信息都符合用户的检索请求,其信息都将被提交到全局资源服务器中。与此同时,这些信息中的某些资源可能正在被多个用户所使用,所以全局服务器会根据各域中该资源的使用情况进行排序,尽量把闲置的、占用率小的资源优先排列,使用繁忙的滞后排列。这样,就避免了多人同时占用同一资源的现象,减少了资源阻塞及瓶颈效应,大大提高了资源的利用效率,缩短了用户的等待时间,提高了工作效率。

全局资源服务器对局域资源服务器的硬件资源也同时进行监控,包括内存使用情况,CPU主频等信息。在对提交的资源进行排列时,把服务器的硬件信息也作为一项选择的指标,把内存空间大、CPU主频率高、利用低的做为优先排列。反之则滞后排列。所以,这种方式也对资源的利用率起到一定的促进作用,降低了服务器的负荷程度。

3 结 语

有效的资源组织模式对网格环境下数字图书馆信息资源的合理使用起到至关重要的作用,基于网格环境下数字图书馆资源异构性、动态性、分布性的特点,在参照国内外研究成果的基础上,本文提出了一种网格环境下数字图书馆资源组织模型——全局/局域分层式资源组织模型。通过建立全局资源服务器和局域资源服务器,实现了资源的分层次管理,并可采用并行数据查找方式,提高了资源的查找和提取速度,有效地缩短了资源的查找时间。全局资源服务器能够时时动态的监控自治域的资源使用情况,并按一定的规则对提交的检索结果进行排列,最适合用户使用的资源排在队列前面,在提高资源利用率的同时减少了通信瓶颈,降低了服务器的负荷程度。可见,本文所构建的资源组织模式科学并且规范,是一种有效的资源共享模式。

参考文献

[1] 谢景明,齐德昱.一种有效的分散式网格资源组织机制[J].计算机工程,2006,32(17):156?158.

[2] HARTMAN A, GIRMSCHEID G. The innovation potential of integrated services and its utilization through co?operation [J]. Engineering Construction and Architectural Management, 2004, l(11) : 335?341.

[3] HUA Guobiao, ZHOU Shuigcng, GUAN Jihong, et al. Towards effective document clustering: A constrained K?means based approach [J]. Information Processing & Management, 2008, 44(4): 1397?1409.

[4] 马晓亭,陈臣.数字图书馆云计算资源调度与虚拟化资源管理机制研究[J].图书馆论坛,2013,32(5):94?97.

[5] 伍革新.基于关联数据的数字图书馆资源聚合与服务研究[D].武汉:华中师范大学,2013.

[6] LEHMAN T J, COZZI A, XIONG Y, et al. Hitting the distributed computing sweet spot with T?spaces [J]. Computer Networks, 2001, 35(4): 457?472.

[7] 乔平安,朱广华,杨立法.一种改进的网格资源组织及其任务调度[J].西安邮电学院学报,2011,16(1):94?97.

[8] STERCK H D, MARKEL R S, POHL T, et al. A lightweight Java task spaces framework for scientific computing on computational grids [C]// Proceedings of the 2003 ACM Symposium on Applied Computing. Melbourne, Florida: ACM, 2003: 1024?1030.

[9] 吴叶葵.信息资源组织模式的沿革[J].现代情报,2003,23(8):128?129.

[10] 龚奕利,李伟,孙毓忠.网格环境中资源发现方法研究[J].计算机工程,2006,32(17):162?164.

[11] CAVANAGH A K. Providing services and information to the dispersed off?campus student: An integrated approach [J]. Journal of Library Administration, 2001, 31(3): 149?157.