一种快速的文档图像倾斜角检测算法
本文提出一种快速的文档图像倾斜角计算方法,根据文档图像的行特征估计倾斜角度。先计算图像的水平梯度图像,根据梯度进行文本行字符区域合并,通过简单的非文本区域滤波来获取有效的文本行,最后统计文本行特征的倾斜角度作为图像的倾斜角。本文给出了算法的实现过程,实验结果表明,本文提出的算法具有较高的精度和较小的算法复杂度,并具有很高的稳定性,可用于实时图像处理领域,另外本文算法可用于图文混和图像自动纠偏、版面分析、图文分割、内容检索等领域。
【关键词】文档图像 倾斜角估计 倾斜角检测 图像纠偏 梯度
1 引言
在文档图像处理领域,图像的倾斜角检测是数据处理中非常重要的组成部分,是进一步进行图像分析、识别的基础。在基于图像的数字识别系统中,识别的可靠性和图像数据的质量密切相关,因此在大多数实时文档图像处理领域,需要快速、准确的确定图像的倾斜角度,用以提高文档信息采集、录入的准确性,并减少拒识率,提高系统的可靠性和适应性。大多数扫描设备具备图像的自动纠偏功能,将倾斜的文档图像从背景中分割出来,但在实际应用中,由于印刷、打印的倾斜情况经常发生,这样导致不能正确的进行倾斜校正,因此研究基于文档图像内容的倾斜校正更能反映问题的本质,在文档图像处理中具有重要意义。
现有的倾斜角估计方法主要有5类:基于Hough变换的方法,基于交叉相关性的方法,基于投影的方法,基于Fourier变换的方法和K-最近邻簇方法。
基于Hough变换的直线检测方法的优点是对图像中的噪声不敏感,计算量比较大,因此实际使用时尽量降低Hough变换的次数,降低参与Hough变换的点数或者降低倾斜角检测精度,文献[3] 使用文本行投影进行变换,然后使用Hough变换估计出文档图像的倾斜角度。对图像中的直线可使用链码方法进行标记算法,该方法对每个有效点进行标记和标记合并。根据图像的文本行字符块估计倾斜角度,不同的行块依赖一个合适的阈值。基于Fourier变换的方法也用于倾斜角的估计,计算量非常巨大。
倾斜角检测的算法需要正确抽取直线,并根据统计特性来增加算法估计角度的可靠性,文档图像本身比较复杂,分类标准也各不相同,既有语言种类的区别,也存在打印和手写体的区别,并且文字的大小、颜色在不同的应用领域也是区别较大的。文本区域的水平梯度较大,图像的边缘特性不是文本区和非文本区域的本质区别,另外文本行具有一定的长度,因此使用长度进行非文本区域的滤波是有效方法,算法设计上充分考虑文本行的特点以降低计算复杂性。
本文针对文档图像,先介绍文本行的特点,据此计算输入图像的梯度图像,并根据梯度图像合并字符块,获取可能文本行块,使用长度滤波抽取正确的行块特征,因此算法对噪声不敏感,为降低倾斜角计算复杂性,避免使用复杂度较高的Hough 变换,使用垂直梯度计算行线特征,通过对行线的跟踪算法,得到每条行线的倾斜角度,最后根据统计特征,计算图像的倾斜角度。本文最后给出算法的实验结果,并说明算法的有效性。
2 文本区行线特征抽取
2.1 文本行的特点
文档图像一般指含有文字信息的图像,本文所研究的文档图像为手写体扫描图像,实验证明本文算法对图文混和图像是有效的。文本行的特点主要有以几个:
(1)一个文本行水平梯度较大。
(2)单个字符的各个部分可能不是一个完整的连通域,且连通性算法复杂度相对较高。
(3)两个相邻的字符之间有一定的间隙。
(4)文本行之间有一定的间隙。
(5)文本行具有直线特点。
(6)字符在尺寸、语言类别、颜色、字体等方面复杂,算法要具有一定的适应性。
(7)假定一个字符不是一个有效的文本行。
2.2 文本行块的计算方法
前面介绍了文本行块的基本特点,水平梯度的计算方法使用梯度差方法 ,即使用[-1,0,1]对图像进行滤波,如图1所示。
如图1所示,待计算梯度图像中包含了Lena图像和文本图像两部分:
(a)图像中的黑线代表检测的行。
(b)图像显示了检测行的梯度计算结果。水平方向上的梯度文本区是较大的,可以充分利用这一特性检测可能的文本区域。
单个字符之间、两个相邻字符之间是有一定间隙,使用连通性检测算法并合并相邻字符获取文本块会增加算法的复杂性,本文使用梯度图像的扩展获取可能的文本块,使用一个固定宽度为n,高度为3的模版实现字符之间的合并,n的选取大于字符间距即可,高度为3时,可确保两个行块之间应至少大于两个像素的距离,而这种要求通常情况下可以满足。
如图2所示,算法对梯度图像进行二值化,使用n=15对二值图像进行扩展,通过非文本区滤波,得到较好的文本区版面结构。该算法说明Lena图像作为文档图像的噪声参与计算过程,对于图文混和图像倾斜角估计也是适用的。
2.3 文本行线的抽取
文本行块具有直线特点,这是文档图像倾斜角检测的重要特征,为了降低算法的复杂性,使用垂直梯度计算经过非文本区域滤波的二值图像,达到图像细化的效果,仅保留文本行块的下边缘或上边缘特征,简化行线跟踪算法。
如图3所示,适用文本行块的下边缘作为文本行线的特征,这个特征可以表征图像的倾斜角度,使用Hough变换也可以检测图像的倾斜角。
3 倾斜角度的估计方法
3.1 行线角度的确定
行线的跟踪算法对连续行线特征进行标记算法,用以确定一个行特征的起点和终点,从而确定一个行线的倾斜角度,每个行线目标具有一定的长度,较小长度的目标不进行角度计算。
如图4所示,行跟踪标记算法判断三个方向上的连续像素,计算一个有效的文本行。
进行目标跟踪算法后,可以确定每个行线目标,记有M个目标,标记为t的目标行线起点、终点坐标为(xs,ys),(xe,ye),则行线的倾斜角可估计为:
θt=(ye?ys)/(xe?xs)
3.2 倾斜角度计算方法
前面计算了每个行线的倾斜角度,但是行线的长度可能差别很大,一个行线的长度越大,越能真实反映图像的倾斜角度,因此不能简单的将每个目标计算倾斜角度然后取平均值,使用行线目标的长度作为权重是合理的计算方法,行线长度越大,权重越大。
定义行线的角度能量,假设标记为t的目标行线倾斜角度为θt,行线长度(目标像素数)为ct,则该行线的角度能量为:
pt=θt*ct
记文档图像的行线特征有M个,则文档图像倾斜角度最终确定为:
θ=pt /ct
使用最大的行线特征作为文档图像的倾斜角度也是合理的,行线长度越大,计算精度越高。
3.3 算法实现过程
上述介绍了确定文档图像倾斜角的方法,定义了一个行线特征的角度能量,下面给出算法的流程图5。
4 实验结果与分析
为了测试检索算法的检测倾斜角度的可靠性,进行相关的实验,该方法具有很好的抗噪声能力,以图1为例,行线特征检测准确可靠。
如图6所示,红色之间为检测到的行线特征,行线特征总共检测到30个,与实际相符,行线像素数最大的一条直线为长度为535,行线高度差为0,最小的行线长度像素为77,高度差为0,文档图像的上半部分为英语文本,下半部分为汉字文本,均为打印体,计算图像的倾斜角度为-0.0365角度,与图像的实际倾斜角度相一致。
为测试算法的适应性和稳定性,对文本区旋转一定的角度,然后检测图像的倾斜角,实验结果如图7。
如图7所示,对文本区分别旋转角度1,2,3,4角度,可以正确的检测行线特征。其他偏转角度与检测结果如表1所示。
5 结束语
本文针对文档图像的倾斜角度估计问题,提出一种基于文本块行线特征的快速的倾斜角度估计方法,分析了文档图像文本行特性,使用水平梯度信息合并可能的文本块,在进行非文本区域滤波后,行线特征明显,通过简单行线跟踪算法确定行线的起点和终点,并介绍了倾斜角计算方法。该算法避免了Hough变换和图像细化过程,计算过程简单高效。
实验结果表明:该方法可有效抽取文档图像的文本行特征,对噪声不敏感,倾斜角度估计精度较高,适合实时图像处理系统。另外,本文算法可用于版面分析、图文分割、内容检索等领域。
参考文献
[1]李庆峰,付忠良,王琴.一种高效的倾斜图像校正方法[J].计算机工程,No.21,2006(11):194-196.
[2]Manjunath Aradhya V N*,Hemantha Kumar G,Shivakumara P.Skew Detection Technique for Binary Document Images based on Hough Transform. International Journal of Information Technology Volume3 Number 3,2006.04,PP194-200.[J].
[3]S.M.Murtoza Habib,Nawsher Ahamed Noor,Mumit Khan.Skew Angle Detection of Bangla Script using Radon Transform.Working Papers 2004-2007,PP136-140.
[4]S.Lowther,V.Chandran and S. Sridharan,An Accurate Method for Skew Determination in Document Images,Digital Image Computing Techniques and Applications,21-22 January 2002,Melbourne,Australia.[C].
[5]Jae-Hyun Kwon,Tae-Tong Park,Yang-Ho Cho,et al.Photo-text Segmentation in Complex Color Document.The National Resrarch Laboratory Program of the Ministry of Science &Technology.
[6]E.K.Wong,M.Chen.A new robust algorithm for video text extraction.Pattern Recognition, vol.36,no.6,pp.1397-1406,June 2003.[M].
作者简介
吴军,硕士研究生学历。现供职于山东师范大学。主要研究方向为数字图像处理。
侯德文,现为山东师范大学副教授。主要研究方向为数字图像处理。
刘江,现为山东山大鸥玛软件有限公司工程师。
作者单位
山东师范大学 山东省济南市 250100