基于文本的网络图像信息搜索技术
摘 要
随着互联网的快速发展和各种数字化多媒体设备的普及,现如今图像信息的数量也在迅猛地发展,网络上的信息呈现爆炸式的增长,用户们没有过多的时间和精力在海量的信息数据中寻找自己所需要的,而是希望能够精确又全面地找到想要的内容,在这一背景下,图像信息的搜索技术得到了业内人士的广泛关注。基于此,本文通过介绍基于文本的网络图像信息搜索技术,找出这项搜索技术的优点和不足,从而更好地发展网络图像信息的搜索技术。
【关键词】文本搜索 网络图像信息 搜索技术
在当今社会的网络信息存储中,图像方面的信息占据了越来越重的比例,根据之前的调查表明,互联网上有80%的信息都来源于图像,网民们对于图像的搜索需求越来越高。就目前的技术来看,图像的搜索技术主要是基于文本和基于图像内容两种方法。在这两种技术方法中,基于文本的网络图像搜索技术的不断发展,更加符合绝大多数人的搜索习惯,对于关键字的描述也相对准确。
1 基于文本的图像检索技术
1.1 什么是基于文本的图像搜索技术
基于文本的图像搜索,就是指在收集图像的时候,把这个图像周围的文本也一同收集了起来,或是在搜索过程中,图像中存在的文本被识别出来,作为对于该图像的定量描述。基于文本的图像检索也就是通过关键字来进行图像检索,非常地简便并且易于实现。
1.2 基于文本的图像检索技术索引数据库的建立
在基于文本的图像搜索技术中,最关键要素就是索引数据库的建立。建立起这个索引数据库,首先就要提取出跟图像的所有有关的信息,比如图像的格式、名称和尺寸等。
1.3 基于文本的图像搜素技术的特点
根据当前的事情来分析,基于文本的搜索存在着两方面的困难:一方面就是通过文本上的描述并不能准确表达图像的全部内容,因为文字的描述能力有限,它只能是通过定向的词语或句式来表达。一旦图像中出现了类似不规则形状或不常见的纹理时,就很难应用文本对其进行解释。再有就是通过文本描述离不开会出现主观因素的形象,当图像的内容过于丰富,就会使内容上的描述具有很大的主观性,那么这样的搜索方法会出现歧义。
但是基于文本的图像搜素技术也有很多优点,比如说可以把图像的搜索转为了与图像相适应相符合的文本检索,这样更加利于实现。另一方面,由于文本搜索是人工来控制操作的,所以它的查准率非常高,可以用来辅助其他图像的搜索技术。
2 如何用文本的方法对图像进行搜索
2.1 图像关联文本的选取
基于文本的图像搜索,其实就是找到与这个图像有关连的文本,来对图像进行索引和标注。跟图像有关联的文本主要包括了文件的拓展名和超文本文件的图像标记符号。文件的拓展名就是图片的存储格式,常见的有gif.、jpg.等,根据这些文件的拓展名,我们可以很好地定位图像信息。而超文本文件的图像标记符号其实就是让我们在实际的搜索中应用到超文本标记语言和可拓展标记语言。
2.2 文本匹配技术
当一个需要被搜索的图像里所有的文本都提取出来时,就要根据这些文本的特征进行排序。不同的排序标准往往会出现不同的搜索结果,比如根据图片的类型来进行文本搜索,那么我们可能会搜索出特定的图片,但如果是根据这个图片的内容在网站中进行搜索,那么搜索的范围也会缩小。
3 如何对图像中的文字进行提取
3.1 基于文本区域空间频率特征的纹理方法
基于文本区域空间频率特征的纹理方法,又称为纹理图像分割法。主要是采取了平稳离散的小波变换来对图像进行着分解,由于纹理图像在局部的区域内是呈现不规则性,但在整体中又表现出了规律性,因此可以对其进行分割。这样的方法可以准确检测到字符与背景的对比度较小的文本,但是也有一定的缺点:由于它产生的文本区域常常和附近的其他边缘轮廓相互黏接,所以说不能得到文本区域的精确位置。
3.2 连通区域方法
根据图像进行连通区域的方法可以有效确定出文本区域的精确位置和大小,但和基于文本区域空间频率特征的纹理方法相反的是,它不能够检测到字符与背景的对比度较小的文本,因此也有着自身的约束性。
3.3 神经网络方法
由于区域空间纹理法和连通区域法都有着自身的局限性,所以提出了一种新的方法——神经网络方法。这种方法将纹理法和连通区域法进行了巧妙的融合,通过整幅的彩色图像色调的直方图来对图像的颜色进行分类,当字符和背景的对比度较小时,根据图像中的其他像素颜色,文本和背景的颜色就会在神经网络中形成一个绝大值。在实际的搜索中,会用纹理法将图像分隔成一个个可能会包含着文本的图像块,然后用区域法来确定文本的大小和具体位置。
神经网络的方法改进了纹理法和连通区域法中存在的不足,是目前为止应用最为广泛的图像中文字的提取方法。
4 结论
其实基于文本来对图像进行搜索,从根本上说就是利用文本的特征来准确搜索到图像,在这里文本就是起到了桥梁的作用。在今后的生活中,互联网将会是一个多媒体的网络,除了文字外,图像、音频、视频都在扮演着越来越重要的角色。随着基于文本的图像搜索技术发展水平越来越高,也有着非常大的现实意义。但是技术的发展并不是一朝一夕可以完成的,在现阶段的搜索技术力还有这很多问题,显得不够成熟,我们应该通过分析文本的图像搜索技术的优点和不足,找出今后的发展方向,推动检索技术更加成熟化发展,给人们创造出更多的价值。
参考文献
[1]赖庆.基于文本的网络图像信息搜索技术[J].民营科技,2008,(11):30-32
[2]王占一,徐蔚然,郭军.智能文本搜索新技术[J].智能系统学报,2012,(01):40-49.
[3]阿斯艳·哈米提,阿不都热西提·哈米提.基于文本的图像检索与基于内容的图像检索技术的比较研究[J].首都师范大学学报(自然科学版),2012,(04):6-9.
[4]韩泉叶,杨晓健.文本信息搜索模型研究[J].兰州铁道学院学报,2002,(01):27-29.
[5]李勇.网络文本数据搜索引擎与搜索技术[J].情报理论与实践,2001,(04):298-300.
作者单位
装备学院昌平士官学校信息管理中心 北京市 102249