首页 文学文摘 时政新闻 科技科普 经济法律 健康生活 管理财经 教育教学 文化艺术 社科历史

分布式信息资源元数据标准化研究

作者:李振富, 张俊星, 李 毅 来源:现代电子技术


  摘 要:元数据标准化是推进分布式信息资源一体化建设、实现信息资源共享的关键。基于分布式信息资源元数据标准化基本要求,提出分布式元数据标准规范,并设计了用于元数据标准发布、管理以及共享的平台,即分布式信息资源元数据标准注册系统的总体框架。
  关键词:分布式信息资源; 元数据标准化; 元数据标准; 元数据注册系统
  中图分类号:TN915 文献标识码:A
  文章编号:1004-373X(2010)11-0147-04
  
  Research on Standardization of Distributed Information Resource Metadata
  LI Zhen-fu1, ZHANG Jun-xing1, LI Yi2
  (1. Xi’an Communication Institute, Xi’an 710106,China; 2. Shaanxi Electric Power Research Institute, Xi’an 710059, China)
  Abstract: The metadata standardization is a key factor for carrying forward the integrated construction and sharing of distributed information resource. On the basis of the fundamental requirement for the standardization of distributed information resource metadata, the metadata standard specification of the distributed information resource is proposed, and the overall framework for the metadata standard registry system of the distributed information resource is designed for the metadata release, management and sharing.
  Keywords: distributed information resource; metadata standardization; metadata standard; metadata registry system
  
  随着信息技术的快速发展和社会信息化建设的不断深入,信息资源在数量和复杂程度上的同步增长使信息搜集和检索技术越来越难以满足大部分用户的信息需求。特别是分布式信息资源,由于信息生产的多目的性和无序性,使信息资源在空间分布上显现出复杂的格局,离散分布于不同地区、行业和组织之中,导致信息“富集”与“贫集”现象的产生[1]。由于标准难以统一、数据异构等原因,给信息资源的检索、共享、利用带来各种困难。元数据在大型企事业单位中应用广泛,被称为信息系统的“DNA”,结构化的元数据不仅能够描述数据信息,还可以规范信息的数据结构和目录内容[2]。统一的元数据描述框架可以进行真正意义上的信息资源整合,面向公众提供统一的信息查询,提高检索的精确率,促进信息资源的共享和利用[3]。只有通过标准化、格式化的程序描述数据才能确保数据交换和数据重复的最小化。面对日益增长的分布式信息资源,用于数据收索、获取和分析的标准化元数据就显得非常必要[4]。
  1 基本要求
  1.1 需求驱动
  元数据标准化要紧贴现实需求。只有以现实需求为依托,设计出来的元数据标准才有实际价值。因此,信息资源元数据标准规范的设计要立足于分布式信息资源元数据用户实际需求,设计出来的元数据能够对分布式信息资源尽可能全面地描述,以满足信息资源不同应用主体对信息资源的需求。这些需求主要包括对信息资源的描述与评价、快速发现和定位、管理、数据维护以及获取等。
  1.2 个性化
  不同领域的元数据有不同的功能需求,因此会有不同的标准。制订分布式信息资源元数据标准时,应该以应用为背景,以满足分布式信息资源的管理、共享为目的,在详细分析分布式信息资源特性的基础上,体现实际应用的需求特点,制定出满足要求的元数据标准规范。
  1.3 简洁性与准确
  分布式信息资源元数据的标准要尽可能的简洁。只有简洁易于掌握的元数据标准,才能被广大元数据标准化工作人员接受,并很快运用。同时,为了最大限度地满足用户的需求,要求对分布式信息资源的描述要准确,而不准确、不相关的信息比没有信息的危害还要大。在保证元数据标准能够对分布式信息资源进行准确描述的基础上,使标准构成尽可能的简洁。
  1.4 互操作
  互操作性是分布式信息资源元数据的重要特征,是实现分布式信息资源互操作的基础。分布式信息资源元数据只有具备良好的互操作性,才能实现不同系统间的信息资源互操作,进而满足分布式、异构信息系统信息资源管理共享的需求。
  1.5 可扩展
  标准是标准化活动的成果之一,标准在标准化过程中得到不断发展完善。标准化的主要内容就是制定标准,实施标准,进而修订标准,又实施标准[5]。因此,分布式信息资源的元数据标准规范也不是一成不变的,它会随着信息资源对元数据功能需求的改变而不断改变。所以分布式信息资源的元数据标准要有可扩展性,要能实现元数据标准的可持续发展,以满足分布式信息资源元数据发展需求。
  2 分布式信息资源元数据标准规范
  2.1 层次结构
  元数据一般为树状结构,可以按一定的层次进行组织。分布式信息资源元数据从层次上可分为元数据子集、元数据实体和元数据元素。元数据元素是分布式信息资源元数据最基本的信息单元,不可再分割;元数据实体是同类信息资源元数据元素的集合,是比元数据元素高一层的概念,它们之间是包含与被包含的关系;元数据子集则是相互关联的信息资源元数据实体与元数据元素的集合,用于说明信息资源某一方面的内容。分布式信息资源元数据的层次结构如图1所示。
  图1 分布式信息资源元数据层次结构
  2.2 核心元数据的数据模型
  遵循分布式信息资源元数据标准的建设原则和流程,以实现信息资源的发现、定位、检索与管理以及获取为目的,设计资源信息核心元数据模型,如表1所示。
  为了保证元数据的通用性,其元素尽可能地在现有元数据标准元素中选取,如表中部分元素是复用国际通用元数据标准DC元数据的元素。根据信息资源的特殊要求,对通用标准进行扩展,考虑到分布式信息资源对安全性的要求,特别增加了限制子集。
  核心元数据元素按功能分为六个子集,分别为资源限制信息子集、资源内容信息子集、数据质量信息子集、资源标识信息子集、分发信息子集、负责方信息联系子集。新增的资源限制信息子集,用于描述分布式信息资源的管理使用权限、资源安全限制等级分级以及资源安全保密期限,以便对信息资源的安全进行控制。资源内容信息子集重点说明了信息资源的基本数据组成,信息资源内容的基本情况。数据质量信息子集包含数据志和概述,数据志用来说明信息资源的生产依据和过程;概述给出了数据质量按特定数据生产标准进行评价的结果,由于分布式资源对数据质量的要求比较高,所以数据质量信息显得尤为重要。资源标识信息子集包含有信息资源惟一标识符、信息资源的摘要信息、信息资源的状态,用于信息资源的检索和发现。分发信息子集主要用来描述信息资源获取的信息,包括分发者信息、数据分发格式信息以及用户获取信息资源的途径。负责方联系信息子集主要为信息资源的获取、分发、管理以及维护提供保障,可重复使用。
  
  2.3 核心元数据总体逻辑结构
  UML是一种通用的面向对象的可视化建模语言,可用于对软件的描述、可视化处理、构造和建立软件系统制品的文档,还可用于对系统的理解、设计、浏览、配置、维护和信息控制等[6]。根据各信息包的逻辑关系,通过UML建模,构成了分布式信息资源核心元数据的总体逻辑结构,如图2所示。
  图2 分布式信息资源核心元数据总体逻辑结构
  分布式信息资源核心元数据由标识信息包、数据质量信息包、限制信息包、分发信息包、内容信息包、负责单位联系信息包以及有关核心元数据本身的信息组成。其中,负责单位联系的信息包是公用的,在核心元数据包的总体逻辑结构中,负责单位信息结构用来描述相应的联系信息。
  2.4 标准描述框架
  分布式信息资源元数据标准的种类复杂且用途多样,因此多种元数据标准共存的局面必然存在,而分布式信息资源元数据标准对互操作性要求较高。要保证能够做到对用户保持一致性的服务,也就是对用户来说,能够提供一个统一的数据界面,保证元数据标准一致性与对权限范围内的用户透明;同时,元数据复用和各种元数据互换已成为分布式信息资源元数据发展的趋势。要实现这些目标,就必须用RDF框架对元数据进行描述。
  RDF具有可伸缩、可扩展、可兼容、可互换以及简单性的特点[7],应用到分布式信息资源元数据标准的描述,能增强元数据标准的互操作性,同时也有利于元数据标准的推广应用。RDF的核心定义比较简单,它规定了描述特定资源中特定属性的基本数据模型,由资源(Resource)、属性(Property)、声明语句(Statement)构成。它基于如下假设:任何一个可被标识的“资源”都可以被一些可选择的“属性”描述,每一个属性的描述都有一个“值”,也就是声明语句。对此定义,可用如图3的三元图来描述。
  图3 RDF三元关系模型
  RDF所提供的基于XML的结构与句法尤其适合描述语义定义较为丰富的分布式信息资源元数据,在这样的模式下,语义、句法及结构得到了很好的整合。
  对于更复杂的情况,可对RDF三元关系进行灵活扩展,下面用基于RDF的句法来描述如下一个假定事实:某某是http://www.xty.name/mydoc.htm资源插图的作者,他是我方某单位的信息资源元数据标准化工作人员,他的email是:Moumou@163.com。可用图4进行具体描述。
  图4 RDF三元关系扩展模型
  3 分布式元数据标准注册系统总体框架
  元数据注册系统(Metadata Registry,MR)是对元数据的定义信息、置标方案、转换规则、著录规则、应用指南等规范进行发布登记管理和检索的系统,它可以支持网络环境中元数据规范的发现、识别、解析、调用以及在此基础上的元数据转换、挖掘和复用[8-9]。是一个被用于存储、组织、管理和共享元数据的系统,能够提供关于元数据的定义、起源和位置的信息。信息资源元数据注册系统是元数据标准制定中工作交流、沟通和统一管理的平台,也是元数据标准的共享平台,是实现元数据标准互操作的关键。注册系统的设计要立足于满足分布式系统信息资源共享的需求,有利于分布式信息资源元数据标准化的进行,支持对元数据标准化的统一管理,支持元数据标准的快速发布、共享、检索以及获取,因此也是实现元数据标准化的关键。
  3.1 功能实现
  分布式元数据标准注册系统要能够提供如下功能:为元数据的注册提供标准统一的注册模板;注册系统的管理人员要能够对提交的元数据标准进行审核,将符合要求的存入数据库,通过注册系统实现对元数据标准的有效管理;元数据注册系统要支持对系统中存在的所有元数据标准和元素进行检索;元数据注册系统要支持不同单位之间的标准互操作,支持不同单位的标准建设协同工作。
  3.2 总体框架设计
  分布式信息系统中信息资源的建设单位分散,造成信息资源元数据标准的种类多样,标准化建设协调难度大,同时对元数据标准一体化程度要求高。因此需要构建一种便于元数据标准集中管理,各标准建设单位能够高度协调,同时各单位又有一定自主权的元数据管理注册系统。本文提出了用于分布式信息资源元数据标准注册的总体框架模型,以实现分布式系统中元数据标准及其元素注册、管理、发布。注册系统总体结构框架如图5所示。
  图5 分布式信息资源元数据注册系统总体框架
  总体框架结构模型采取分布与集中相结合的模式,位于中央的是分布式信息资源元数据注册系统总库,它存储来自不同系统A,B,C,D元数据工作者提交的元数据标准,负责分布式信息资源元数据库、公用元数据库及各个元数据标准工作单位之间的组织协调与管理,负责各单位标准化部门符合要求元数据标准的备份,同时提供面向用户的应用接口与应用接口的软件平台,并负责总体标准的发布、实施、监督等;A,B,C,D各部门注册系统,负责各自元数据的注册工作,通过和总库的有效沟通,确定部门标准制定的有效性以及与整个分布式系统元数据标准体系的协调性,然后进行注册并将注册过的标准提交到总库;各部门注册系统的管理者、标准制定者以及标准用户之间能进行有效的沟通,通过沟通交流,标准制定者不仅能够从使用者那里获取需求信息,还可以从使用者的应用实践中获取标准改进意见;各部门注册系统之间有业务来往,标准制定者和标准使用者可以相互访问数据库,提高了标准效率,有相近的标准时,可以通过相互沟通进行高效的元数据复用,节
  省大量资源,并有助于标准的统一;注册系统总库的管理者和各部注册系统管理者可以通过双向沟通,有序协调,负责分布式元数据标准化的总体控制。
  4 结 语
  推进分布式信息资源元数据标准化建设对提高信息资源管理效率,促进信息资源共享、利用具有重要意义。本文在遵循分布式信息资源元数据标准化要求的基础上,给出分布式信息资源元数据标准规范,并设计了用于元数据标准规范注册、管理、共享的元数据标准注册系统,希望能够给分布式信息资源元数据标准化建设提供有益的参考。
  
  参考文献
  [1]霍国庆.我国信息资源配置的模式分析(一)\.图书情报工作,2000(5):32-35.
  [2]LIU Sheng-ping, YANG Yang, XIE Guo-tong. Supporting ontology-based dynamic property and classification in Websphere metadata server[J]. Lecture Notes in Computer Science, 2008,5318(1): 861-862.
  [3]吴鹏强,韶华,苏新宁.政府信息资源五数据猫述框架研究\.中国图书馆学报,2007(1):66.
  [4]BERMUDEZ Luis, PIASECKI Michael. Metadata community profiles for the semantic web[J]. Geo. Informatics, 2006,10(2):160.
  [5]洪生伟.标准化过程模式探讨[J].世界标准化与质量管理,2007(4):35.
  [6]王正俊,顾宏斌.UML和设计模式在AMCCS中的综合应用[J].计算机应用与软件,2007,24(7):103-104.
  [7]郭志红.元数据的多角度透视[J].图书馆,2002(5):37-38.
  [8]JEONG Dongwon, BAIK Doo-Kwon. Incremental data integration based on hierarchical metadata registry with data visibility[J]. Information Sciences, 2004,162(3):150.
  [9]梁娜,张晓林.基于人工登记与检索的元数据登记系统[J].大学图书馆学报,2003,21(1):22-25.