摘要:提出了一种利用MPEG-7 边缘直方图(EHD)对风光记录片分类的双阈值方法。通过提取镜头关键帧的全局边缘直方图并根据双阈值把镜头关键帧分为有建筑物和自然风景两大类,从而将风光记录片分为介绍建筑物和介绍大自然景观的不同片段,这样就得到了最基本的语义,为下一步提取更详细的语义打下基础。通过图像平滑和增强来提高边缘检测的准确度,并利用视频镜头关键帧内容的时间相关性,对双阈值方法分类的结果进行修正,可进一步提高分类的准确度。实验结果表明,该方法的准确度达到90%以上。
关键词: 边缘直方图
引言
纹理是图像和视频检索中非常有用的低层特征。MPEG-7 中推荐了三种纹理描述符,分别是边缘直方图描述符(edge histogram descriptor)、同质纹理描述符(homogeneous texturedescriptor)和纹理浏览描述符(texture browsing descriptor)[1]。MPEG-7 的纹理描述符最初在图像处理和检索中得到广泛的应用[2,3],近几年在视频分割和检索方面也开始应用[4,5],但工作比较少。视频分类是多媒体内容理解的第一步,本文将提出一种利用MPEG-7 边缘直方图将风光记录片分为介绍建筑物和介绍大自然景观的不同片段的方法。
对风光记录片进行分段分类的目的是将风光记录片中描述不同主题的视频片段区分开,这样就得到了最基本的语义,如这一段视频是介绍建筑的或是描写风景的,为下一步提取更详细的语义打下基础。分类是在将视频分割为镜头并提取镜头关键帧后进行的,因为镜头关键帧是反映该镜头中主要信息内容的一帧或若干帧图像,对镜头关键帧进行分类,也就对该镜头描述的内容进行了分类。
我们知道建筑物和大自然景观在纹理上明显差别在于建筑物有丰富的刚性直线条,尤其是垂直和水平的直线条,而自然的景物如花、草原、山脉、河流等往往缺乏明显的刚性直线轮廓,边缘线在各个方向上的出现的概率有时几乎相同[6],这就为利用边缘直方图对他们进行分类打下了基础。本文提出的对风光记录片分类的双阈值的方法,首先提取镜头关键帧的全局边缘直方图特征,通过两个阈值来判别镜头关键帧中是否含有建筑物,如果一段视频的镜头关键帧都含有建筑物,则这段视频就是介绍建筑物的视频片段,否则就是介绍自然风景的片段。同时,还通过图像平滑和增强方法来克服风光记录片不同的视频片段背景亮度的差别对边缘直方图计算的影响;分类时考虑了视频镜头关键帧内容在时间上的相关性,即如果在一段视频的多个镜头关键帧中,绝大多数判定是建筑物(或自然风景),而检测到中间一两个镜头关键帧是自然风景(或建筑物),则仍然认为这段视频是介绍建筑(或风景)的片段。这样可以提高分类的准确度。
1 MPEG-7 边缘直方图描述符在 MPEG-7 中,边缘直方图描述符(EHD)是用图像中每个子图像的5 种类型的边缘直方图来表示的,如图1 所示。所谓子图像是将图像分成4×4 个不相重叠的图像块中的一块。这样不管原始图像多大,一幅图像都被分割成同样大小的16 个子图像。每个子图像又被分割成若干图像块,每个图像块又被分割成4 块,为提取边缘直方图做准备。所示。每一个子图像,求出的5 个方向上的边缘直方图就表示了该子图像上5 种类型的边缘发生的频率。一幅图像有16 个子图像,则可以求出5×16=80 个Bin 的边缘直方图。
2 边缘直方图的计算图像块是求边缘直方图的基本单位。对每个图像块求其边缘直方图的一个简单的办法就是在空间域中应用MEPG-7 建议的5 种边缘检测算子来求图像块中是否有图1 所定义的5种类型的边缘。MPEG-7 建议的5 种边缘检测算子如图3 所示,从左至右依次分别检测垂直、水平、45 度、135 度和无方向边缘。为此将每个图像块分为4 个子块。对每个图像块分别用5 种边缘算子计算其5 个方向上的边缘强度,然后判断是否存在边缘,若存在边缘,则判断哪个方向上的边缘强度最大,将边缘强度最大的方向对应的子图像的Bin 值加1,例如45 度的边缘强度最大,则在子图像45 度方向的Bin 值加1。若不存在边缘,则为均匀灰度区域。但MPEG-7 的5 种边缘算子中,无方向边缘算子并不能实际应用,因为很难找到适用于不同方向的滤波器系数。因此在计算时首先判断是否是均匀灰度图像块(即4 个子块的灰度值相等),若是就不用计算边缘强度;若不是均匀灰度块,则计算垂直、水平、45 度和135 度的边缘强度,当这四种边缘强度都小于某一设定的阈值,该图像块为无方向边缘块。则存在边缘,否则是无方向的边缘。计算的子图像的边缘直方图的程序流图如图4 所示。
3 求出 16 个子图像的边缘直方图Bin 后,就得到了MPEG-7 的边缘直方图描述符,是一个一维的80Bin 的向量,它描述了图像的局部边缘的分布情况[7],而我们为了对视频分类需要了解图像的全局边缘的分布情况,因此对MEPG-7 的边缘直方图描述符进一步处理,求全局边缘直方图。具体做法是将每个子图像的5 个方向的Bin 对应合并,得到描述全局的5个方向的Bin,然后将其归一化处理,即将每个方向的Bin 除以图像的图像块总数,这样就得到了归一化的描述全局边缘的直方图。3.用边缘直方图对风光记录片进行分类为了将风光记录片中描述建筑和自然风光的视频片段分开,从而得到最基本的语义,为下一步提取更详细的语义打下基础,我们在对每个镜头关键帧提取全局边缘直方图之后,根据边缘直方图上的差别来区分建筑物和自然风景。一般建筑物垂直方向的边缘很多而无方向的边缘很少,自然风景的无方向的边缘很多而垂直的边缘很少,图5 给出了两个例子。边缘直方图从左至右依次为垂直、水平、45 度、135 度和无边缘5 个Bin。根据以上分析,我们提出了一个双阈值的方法,来自动对风光记录片中描述自然风景和介绍建筑物的片段进行分类。在边缘直方图的5 个Bin 中对风景和建筑的差别最敏感的是垂直和无边缘方向两个Bin,因此,可根据这两个Bin 值的变化来区分。
设垂直和无方向边缘直方图Bin 的两个阈值分别为Tvth 和Tnth,对镜头关键帧提取全局边缘直方图后得到镜头关键帧垂直边缘强度mv 和无边缘方向的边缘强度mnd, 则若 mv > Tvth 且mnd < Tnth,或mv > Tvth+δ,则该镜头关键帧是描述建筑物的,式中的δ是一个小的正数,反映了mv 与 Tvth 相差的多少;若 mv < Tvth,但 |Tvth –mv | <δ 且mnd < Tnth,则该镜头关键帧是描述建筑物的,不满足以上条件的都是描述自然风景的。
考虑到风光记录片拍摄时大多采用自然光线,因此不同的视频片段背景的亮度会有很大差别,为提高边缘检测的准确度,在提取每个镜头关键帧边缘直方图前,首先对它进行平滑
4 实验结果与分析视频素材选自风光记录片《西部采风》中的阿提朵大清真寺、古丝绸之路和风雨桥3个片段,对3 部素材提取了镜头关键帧,在求边缘直方图时,首先对每帧图像进行平滑和增强处理,然后将每个镜头关键帧分为16 子图像,每个子图像又分为64 个图像块,这样每帧共有1024 图像块。求出每帧的全局边缘直方图后,用我们提出的双阈值方法进行检测,结果如表1 所示。表 1 的分类结果只考虑了单个的镜头关键帧,并没有考虑视频序列在时间上的相关性。
如当一段视频是描述建筑物时,提取的镜头关键帧都是描述建筑物的。当用以上方法进行判别时,若某个镜头关键帧判别是风景,而其前面和后面的多个镜头关键帧都判别是建筑,则就认为该镜头关键帧判别有误,应与纠正,因为判别错误的镜头关键帧很可能是建筑物的远景镜头。若有几个连续的镜头关键帧判为风景,就认为在这段描述建筑物的视频中有一小段是描述建筑物周围的风景的。这样处理后可进一步提高分类的精度。镜头关键帧分类完后,就可以将连续的描述建筑物的镜头关键帧对应的视频片段分成是描述建筑物的视频片段;同样将连续的描述风景的镜头关键帧对应的视频片段分成是描述风景的视频片段。为将来提取语义打下基础。
5 结论本文利用 MPEG-7 中定义的边缘直方图描述符,提出了一个双阈值的方法对风光记录片分类,即利用镜头关键帧的边缘直方图特征对风光记录片分类。为提高分类准确度,通过图像平滑和增强方法来克服风光记录片不同的视频片段背景亮度的差别对边缘直方图计算的影响,分类时还考虑了视频镜头关键帧内容在时间上的相关性。实验结果表明,该方法的分类准确度达到90%以上
文章来自中国论文发表网,本站是专业的中国论文发表网,如需转载请保留一个链接:http://www.lunwen56.com/post/cat_12.html
原创文章如转载请注明:转载自『中国论文发表网』 http://www.lunwen56.com/

文章排行
相关文章:
野泉烟火白云间,坐饮香茶爱此山。岩下维舟不忍去,青溪流水暮潺潺。
发表评论: