DocBook技术在图书数字化中的应用
摘 要
随着科学技术的快速发展,越来越多的读者开始接受数字化图书的阅读,这个现状导致图书出版行业不得不进行数字化转型,在图书的数字化出版上,为了便于多终端的阅读,数字化图书就必然需要在XML的基础上建立DocBook规范,以便与更多地终端相兼容。
【关键词】数字出版图书 XMLDocBook
1 概述
图书资源的数字化处理,是每个出版单位必然要面对的实际问题,在企业数字化进程的开始之初,就必须制定一个数字化加工标准,以统一所有图书资源。同时为了以国际接轨,采用的加工标准就应采用国际标准。
DocBook模式是当前比较流行的加工模式。DocBook是一个庞大且成长迅速的针对图书的特有模式,它可以使用多种语言进行编写,比如RELAX NG、SGML、XML等。纵观国内的图书出版单位,基本上均采用XML语言进行编写。XML是可扩展标记语言,主要用于标记数据、定义数据类型,它以流文件的形式在互联网上传输,图书经过XML结构性标记后,形成独立于应用程序的结构化数据。
2 图书资源包结构
因为DocBook是一个庞大的标准规范,我们在实际应用中就需要对其进行裁剪、择选和再扩展。当然经过出来的简要的规范结果,也必须严格遵守DocBook规范。
定义一本图书的加工规范,第一步就是对图书所设计到资源进行资源包拆分。现阶段我们对图书资源包的拆分大概可以分为1个主文件和5个文件夹。
1个主文件是指main.xml,该文件为图书的主索引文件,也是该本图书的入口文件。
5个文件夹是指‘xml’文件夹,主要存放图书关联xml文件;‘images’文件夹,主要存放图书封面、插图等;‘multimedia’文件夹,主要存放图书多媒体资源;‘pdf’文件夹,主要存放图书原版原式的pdf文件;‘scanpic’文件夹,主要存放针对历史图书的扫描文件,便于后期再加工。
3 Main.xml文件的基本结构
Main.xml文件是图书的入口文件,起到至关重要的作用,它将图书的基本信息、前言、后记、目录、绪论、术语表等数据全部包括其中,所以我们首要任务就是对其进行定义。
3.1 根结点定义
主XML文件的根节点名称定义为“book”,如:
3.2 图书基本信息的定义
图书的基本信息一般包括前言、目录、绪论、后记等,我们对其进行描述一般定义为:<!--图书基本信息-->
<!--图书序言-->
3.3 多文件结构的定义
一本图书包含多个基本信息和多项内容,将其保存在一个xml文件中是不现实的,我们依据数据不同,分别将其保存在多个xml文件中。图书内容经过拆分,形成多个xml文件,每个xml文件有一根结点,并保持与main.xml文件对应关联。
比如:基本信息保存在info.xml文件中,文件的根结点为info;目录保存在toc.xml文件中,文件根结点为toc;前言保存在dedication.xml文件中,文件根结点为dedication;章节保存在chapter.xml文件、后记保存在colophon.xml文件等等,。最后我们通过使用main.xml文件将上述拆分后的文件串联起来,形成一本统一的图书。
4 info.xml文件的基本结构
info.xml文件主要包括了图书的标题、书号、作者等图书基本信息,定方式为:
4.1 图书标题的定义
标题采用
4.2 书号的定义
书号有多种编号方式,比如国际标准书号ISBN、图书在版编目CIP号等等,所以对书号属性定义时,我们应通过class属性区分。
4.3 作者的定义
因为一本图书存在主编、副主编、作者等很多属性,所以我们使用
4.4 其他的基本信息的定义
图书涉及到的基本信息“出版商”、“版权”、“定价”、“开本”等,在此不作详细阐述。
5 图书附属信息的定义
图书的附属信息一般包括前言、序言、后记等,我们对其进行定义的方法介绍如下:
“前言”使用dedication进行标记,加role=”foreword”进行表示,如果出现多个前言,将使用label属性进行区分。
“序言”使用preface置标,若有多个图书序言,在preface 节点上添加label属性进行语义区分,用法类似图书前言。
“后记”使用colophon置标,若有多个图书后记,在colophon节点上添加label属性进行语义区分,用法类似图书前言。
其他附属信息如“术语表”、“参考文献”、“作者简介”、“辅文”等的标注定义方式,在此就做介绍。
6 图书内文的定义
图书的主要精髓就是其内文的内容,它是图书的最重要部分,但是在数字化处理中,却是最容易处理的部分,主要涉及到以下几种属性的定义:
“章”:使用chapter表示;
“节”:图书节位于图书章之下,用sect表示, sect逐级包含,不可间隔。
“段”:段主要用来书写内容,使用para表示。
“插图索引”、“图片”、“表格”等多项信息的定义,在此不做阐述。
7 结论
图书的数字化转型是出版单位的当务之急,在转型过程中数字化投入是巨大的,项目不能盲目上马,一定要做足前期的准备工作。制定一个既符合本单位使用,又符合国际标准的加工定义是这项工作的重中之重。
作者单位
贵州出版集团公司数字出版中心 贵州省贵阳市 550001