在MPEG压缩域中进行运动对象提取的现状研究
摘 要:运动对象的提取是进行视频分析的一个重要部分。传统的提取方法是在像素域中完成,将其用于以压缩形式存储的视频则需要耗费大量的时间先进行压缩码流的解码。为了提高速度,许多科研人员开始分析MPEG码流的特性,研究直接在压缩域中进行运动对象提取的方法。对近年来提出的压缩域中运动对象的提取方法进行分析,为进一步提高算法性能奠定基础。
关键词:MPEG码流;压缩域;运动对象提取;视频分析
中图分类号:TP391 文献标识码:A 文章编号:1004373X(2008)1615004
Status Research of Moving Object Extraction in the MPEG Compressed Domain
LI Peng.1,LI Yan.1,2,LU Xiaofeng.1,WANG Xuetong.1,WANG Li.1
(1.School of Computer Science and Engineering,Xi′an University of Technology,710048,China;
2.School of Electronics and Information Engineering,Xi′an Jiaotong University,710049,China)
Abstract:Moving object extraction is one of the important procedures in the video analysis.The traditional extraction methods are carried out in the pixel domain.Due to the heavy work to decompress the videos,it′s a timeconsuming work to analyze the videos stored in compressed form by traditional extraction methods.In order to speed up the extraction procedure,many researchers have begun to study the characters of the MPEG coded stream and proposed some new extraction methods which are implemented in the compressed domain directly.In this paper,some recently developed moving object extraction methods are introduced and compared for further improvement of the extraction algorithms.
Keywords:MPEG coded stream;compressed domain;moving object extraction;video analysis
1 引 言
视频中运动对象的提取是指从视频序列中分离出有一定意义的实体,是进行视频分析的一个重要部分,为建立视频摘要和进行视频检索提供重要信息。传统的视频运动对象提取是在像素域中进行的,目前已有一些基于像素域的提取算法.\4\〗可以得到比较精确的结果。但是现今大量的视频数据是以压缩的格式存放的,在像素域中完成运动对象提取需要耗费大量的时间进行压缩码流的解码。因此,研究利用压缩域信息进行运动对象提取的方法.\16\〗是非常有意义的。
2 MPEG压缩标准
为了解决视频数据量巨大所带来的存储与传输困难,国际标准组织制定了相应的图像与视频压缩标准。其中包括ISO/IEC静止图像专家组制定的JPEG以及JPEG2000标准,运动图像专家组制定的多媒体数据编码标准MPEG1,MPEG2,MPEG4以及后续的针对多媒体内容描述的MPEG7和综合各种标准的框架MPEG21,另外还有ITUT制定的数字视频压缩国际标准H.261,H.263等。近年来,ISO/IEC MPEG工作组和ITUT合作开发了新的视频压缩标准,即H.264/MPEG4AVCPart10,可满足视频移动通信、视频流服务、高清晰度电视存储和传输等不同领域的应用。
MPEG压缩标准是视频图像压缩标准中最具代表性的,是许多科研机构和大学的研究热点,也是工业界产品开发的热点。
2.1 MPEG1
MPEG1[17]主要采用离散余弦变换(DCT)和运动补偿技术,其视频图像数据为分层结构,如图1所示。在MPEG1这6层数据中,前4层包含各自的头信息和一些特征信息,将第5层作为运动补偿的基本单元进行运动补偿预测,在第6层进行DCT变换。也就是说,第5层和第6层主要包含运动矢量和量化的DCT系数,这两层的信息与视频图像的具体内容密切相关。
MPEG1定义了4种帧类型:I帧、P帧、B帧和D帧。每帧图像由3个整数矩阵构成,一个亮度矩阵(Y)和2个色度矩阵(Cb和Cr)。I帧进行帧内编码,不需要进行运动补偿预测,在第6层传送帧内每个块像素值的DCT系数,压缩比最低。P帧进行前向预测编码,也就是说当前P帧参考与其最近的前一个I帧或P帧进行运动补偿预测,即在前一参考帧中寻找与当前帧中待编码宏块最相似的宏块,构造运动矢量,在第5层传送运动矢量(运动矢量也可能不存在,即参考帧中不存在相似宏块,则当前帧中宏块进行自编码),第6层传送运动残差的DCT系数或者像素值本身(参考帧中的块与当前帧中的块内容差别较大,进行自编码)的DCT系数。B帧进行双向预测编码,即当前B帧参考与其最近的前一个I-帧或者P-帧以及后一个I帧或者P帧进行双向的运动补偿预测,在第5层传送运动矢量,第6层传送运动残差的DCT系数或者像素值本身的DCT系数。在上述3种类型的帧中,B帧的压缩比最高,但过多的B-帧会导致预测误差的传播。D帧仅包含一些低频信息,为用户快速浏览定位视频提供支持。
2.2 MPEG2,MPEG4,MPEG7和MPEG21
MPEG2是在MPEG1的基础上提出的,它保留了MPEG1提供的全部功能,并与MPEG1兼容,同时又增加了基于帧/场的运动补偿方式,并提供空间可扩展、时间可扩展、质量可扩展以及容错编码等新技术。
MPEG4引入视频对象(VO,Video Object)的概念,针对视频内容进行有效的编码,使基于内容的操作需求得以满足,又保证了编码的高效、简便,同时与先前的编码标准很好的兼容。
ISO/IEC还提出2个标准算法——MPEG7和MPEG21,实际上这2个标准并不是针对视频编码的。
MPEG7的目标是建立一套音视频信息的量化标准描述符以及它们之间的关系和结构,被称之为描述方案(Description schemes,DS)。同时MPEG7也建立了一套标准化的语言——描述定义语言(Description definition language,DDL),用以说明描述符和描述方案。可以认为,如果以往的MPEG1,2,4表达的信息都是内容本身的话,那么MPEG7则是针对多媒体内容的表述进行标准化,是一种表示信息的信息。
随着多媒体技术的不断发展,各种多媒体标准层出不穷,为了对这些标准进行有效地协调,使它们能配套衔接,一个“多媒体框架(Multimedia framework)”的概念被提出来,这个新的工作方向就被确定为MPEG21。
3 压缩域中进行运动对象提取的现有算法
通过对MPEG压缩标准的了解,可以发现在压缩域中可供利用的主要信息是运动矢量和DCT系数,目前针对压缩域提出的运动对象提取算法基本上都是集中在对这2类信息的分析运用上。作者认为,现有的提取算法大致可以分为4类:第一类部分解码视频帧得到DC图像,即得到原始视频图像的粗略描述,然后提取运动对象;第二类分析利用运动矢量和DCT系数的特性完成运动对象的提取;第三类针对压缩域算法提取精度不高的问题,首先在压缩域进行粗分割,接着对粗分割的结果区域进行解码,然后在像素域中提取运动对象的精确轮廓;第四类考虑摄像机带来的全局运动,提高提取结果的准确度。
(1) 根据DC图像提取运动对象
文献[10]利用DC系数得到DC图像,根据DC图像提供的信息检测出背景区域,进而提取出运动对象。这种方法实际上还是利用了像素域中分割算法的思想,在进行分割时,需要将视频图像从压缩域变换到像素域,只是在恢复原始视频图像时,仅利用DC系数还原出原始图像的粗略描述,不进行IDCT变换,减少解码负担,提高速度。
(2) 利用运动矢量和DCT系数的性质提取运动对象
文献[5,6]首先对于存在运动矢量的宏块,将运动矢量从空域和时域上进行聚类,得到组成运动对象的候选宏块。可以认为在同一帧内,属于同一运动对象的宏块其运动矢量可能基本相同,根据这个特性进行空域上的聚类。还可以认为在相邻帧中,属于同一运动对象的宏块其运动矢量也可能基本相同,根据这个特性又在时域上进行进一步聚类。然后,对于不存在运动矢量的自编码宏块,若该宏块(称为A宏块)作为下一帧某宏块(称为B宏块)的参考,而B宏块被认定为运动对象的候选宏块,则认为A宏块也为候选宏块。最后,对得到的所有候选宏块进行后处理,根据AC系数滤除平坦区(Flat region),得到运动对象。在前两步的提取过程中,平坦区通常会被误认为运动对象的候选宏块。不过,包含平坦区的宏块其DCT系数中的AC系数值很大,根据这个特性可以成功地将平坦区宏块从候选宏块中滤除掉。
上述方法是以分析运动矢量特性为主,DCT系数特性为辅完成运动对象提取。DCT系数中的DC系数能够反映颜色信息,AC系数能够反映纹理信息。如果在进行对象分割时,能够更多地利用DC和AC系数提供的信息,应该能够优化分割结果。文献[9]综合了DCT系数和运动矢量的特性,构造出一个特征向量,通过分级聚类的方法完成对象分割。文献[11]提出一种“跟踪检测”技术,通过分析相邻帧中宏块的运动矢量以及AC系数谱能量,将运动区域在多帧之间连接起来,进而完成运动对象的提取。
(3) 压缩域方法和像素域方法结合,提高提取结果的精确度
基于压缩域的运动对象提取方法避免了大量解码压缩视频的过程,提高了运算速度。但是,现有的压缩域算法在精确度上都无法达到像素域算法的分割效果。
为了提高分割结果的精确度,文献[14]提出了将压缩域算法和像素域算法结合的思想,首先在压缩域聚类运动矢量得到运动区域,再对运动区域运用IDCT变换进行解码,得到该区域的原始图像,最后利用Canny边缘检测算子得到运动对象的精确轮廓。这种方法折中考虑了效率和效果,以时间换取精度。
文献[16]的基本思想类同于文献[14],首先在压缩域对运动矢量进行聚类得到运动区域,然后通过部分解码得到该运动区域的DC+2AC图像,从而提取到比较精确的轮廓特征。运动矢量是以宏块为基本单位的,文献[16]为了进一步提高分割精度,为每个块添加运动矢量,更加准确地提取出运动区域。在对运动区域进行解码时,综合考虑了效率和效果2方面的因素,利用DC+2AC系数恢复出原始图像的粗略描述,不需要进行IDCT变换,提高了解码速度。虽然DC+2AC图像的效果不如原始图像,但已能比较清晰地反映出轮廓信息。
(4) 考虑摄像机带来的全局运动,提高提取结果的准确度
在视频序列中,除了存在对象的实际运动,还存在另外一类重要的运动信息,即摄像机镜头的自身运动。摄像机镜头的运动会引起视频画面的整体运动,也被称为全局运动。文献[8]考虑了摄像机全局运动对提取结果的影响。首先,根据宏块的运动矢量得到运动流。然后,通过哈夫变换进行镜头运动估计,得到镜头运动参数,利用该参数对运动流进行运动补偿,从而确定运动对象。最后,利用均值平移(mean shift)法对检测出的运动对象进行跟踪。文献[13]结合第三类和第四类算法的思想,首先根据运动矢量和镜头运动参数分离出背景区域和运动对象,然后对包含运动对象的区域进行解码,在像素域检测出运动对象的精确轮廓。
4 结 语
运动信息是视频序列中的重要特征,运动对象的提取是建立视频摘要和进行视频检索的重要基础。由于存储容量和网络带宽的限制,目前视频序列大多以压缩的形式存放。常用的压缩标准有MPEGx和H.26x等。在像素域中进行运动对象的提取已有很多算法可以得到比较精确的结果,但将这些算法用于压缩视频,就必须耗费大量时间解码,为了提高视频分析的速度,直接针对MPEG压缩域进行运动对象提取是很有必要的。近年来,许多科研人员在这方面做了深入研究,提出了一些有效算法。
研究基于压缩域的运动对象提取算法有着广泛的应用前景。文献[7]通过融合运动矢量和聚类DCT系数完成道路上车辆的检测。文献[12]主要利用DC系数提供的颜色信息实现交通监控。文献[15]根据运动矢量分离全局运动和局部运动得到运动区域,再根据运动区域的DC+2AC图像提取轮廓特征,从而分析出室内人物的状况,实现有效的监督。可以看出,研究基于压缩域的提取算法具有非常大的实用价值。
基于压缩域进行运动对象的提取算法,在计算复杂度和计算速度方面都比基于像素域的算法有较大的优势,但分割的精确度不够高。目前针对精度问题提出的解决方案是以时间换取精度,通过解码运动区域,在像素域完成边缘检测,以求达到更好的分割效果。在MPEG压缩域中,可供利用的主要信息是运动矢量和DCT系数,进一步分析这两者的特性,充分利用其提供的信息提高对象分割的精确度是一个值得研究的方向。另外,在特定的应用领域中,可以结合领域特性修改算法,从而在效率和效果上更好的满足需求。
参 考 文 献
[1]Meier T,Ngan K N.Automatic Segmentation of Moving Objects for Video Object Plane Generation[J].IEEE Trans.Circuits Systems for Video Technology,1998,8(5):525538.
[2]张泽旭,李金宗,李宁宁.基于光流场分割和Canny边缘提取融合算法的运动目标检测[J].电子学报,2003,31(9):1 2991 302.
[3]Jinsang K,Tom C.Multiple Feature Clustering for Image Sequence Segmentation [J].Pattern Recognition Letter,2001,22:1 2071 217.
[4]Castagno R,Ebrahimi T,Kunt M.Video Segmentation Based on Multiple Features for Interactive Multimedia Application [J].IEEE Trans.Circuits Systems for Video Technology,1998,8(5):562571.
[5]Nakajima Y,Yoneyama A,Yanagihara H,et al.Moving object detection from MPEG coded data [C].SPIE,Visual Communications and Image Processing ′98,1998,3 309:988996.
[6]Yoneyama A,Nakajima Y,Yanagihara H,et al.Moving Object Detection and Identification from MPEG Coded Data [C].In Proc.IEEE ICIP′99,Kobe,Japan,1999(2):934938.
[7]Zen H,Hasegawa T,Ozawa S.Moving Object Detection from MPEG Coded Picture [C].In Proc.IEEE ICIP′99,Kobe,Japan,1999(4):2529.
[8]Park SM,Lee J.Object Tracking in MPEG Compressed Video Using Meanshift Algorithm [C].In Proc.IEEE,ICICSPCM′03,Singapore,2003(2):748752.
[9]Porikli F.Realtime Video Object Segmentation for MPEGencoded Video Sequences [J].SPIE,RealTime Imaging VIII,2004,5297:195203.
[10]Zeng W,Gao W,Zhao D.Automatic Moving Object Extraction in MPEG Video[C].In Proc.IEEE ISCAS ′03,Bangkok,Thailand,2003(2):524527.
[11]Lie WN,Chen RL.Tracking Moving Objects in MPEGcompressed Videos [C].In Proc.IEEE ICME ′01,Tokyo,Japan,2001:1 1721 175.
[12]Mezaris V,Kompatsiaris I,Strintzis M G.Compresseddomain Object Detection for Video Understanding [C].In Proc.Workshop on Image Analysis for Multimedia Interactive Services,Lisbon,Portugal,2004:203206.
[13]Ralph Ewerth,Martin Schwalb,Paul Tessmann,et al.Segmenting Moving Object in MPEG Videos in the Presence of Camera Motion [C].Image Analysis and Processing,2007.ICIAP 2007.14th International Conference on 1014,2007:819824.
[14]王占辉,刘贵忠,刘龙.一种从视频压缩码流中精确提取运动对象的快速算法[J].电子与信息学报,2004,26(7):1 1571 162.
[15]Lin Chiawen,Ling Zhihong.Automatic Fall Incident Detection in Compressed Video for Intelligent Homecare [C].Computer Communications and Networks,2007.ICCCN 2007.Proceedings of 16th International Conference on 1316,2007:1 1721 177.
[16]Zhou Qiya,Yang Gaobo,Chen Weiwei,et al.A Fast and Accurate Moving Object Extraction Scheme in the MPEG Compressed Domain [C].Image and Graphics,2007.ICIG
2007.Fourth International Conference on 2224,2007:592597.
[17]ISO/IEC.Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbps [S].ISO/IEC 11172,1993.
作者简介 李 鹏 男,西安理工大学。研究方向为嵌入式系统,图形图像处理。