现代信息检索课程报告——《基于内容的视频信息检索》
随着而来的问题是,如果去确定一个镜头的关键帧,成为了一个难点。通常我们要求关键帧必须具备以下的几个条件:(1)关键帧必须能够准确完整地反映镜头的主要事件;(2)为了便于后期的数据处理,我们提取的关键帧数据量应尽量少且不宜太复杂。
在文献[10]中提及了几个关于关键帧的选取方法,其介绍了比较经典的有帧平均法和直方图平均法。这些方法对于提取关键帧有着可观的作用。
(1)帧平均法
其基本思想是从镜头中抽取所有帧在某个位置上像素值的平均值, 然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧
(2)直方图平均法
将镜头中所有帧的统计直方图取平均, 然后选取与该平均直方图最接近的帧作为关键帧。
但是不管是哪种方法,都存在着一定的缺点。
4. 2. 3 视频聚类
在对镜头进行分析后,我们主张进行视频的聚类。之所以进行视频的聚类,主要是基于以下的考虑。
首先,一段视频可能很大,包含了很多个镜头,如果单一的对每一个镜头都进行分析,那将会是很大的工作量,不仅如此,单一的处理镜头,也将会失去视频的时间性、运动性和连续性。但是如果将相似的镜头组织在一起,则是对视频信息的进一步抽象。用户可以通过视频聚类得到的结果对视频段进行快速的浏览,同时这也可以作为检索的结果反馈给用户 这丰富了检索结果的形式,这对于用户来说是极大的便利。
其次, 镜头聚类也是对视频数据的进一步压缩。虽然已经实现了利用镜头的关键帧来代表镜头,利用关键帧技术,实现对视频的处理,但是从图象访问的角度来看,数据量还是太大。假如一个故事场景可分成600~ 1500个镜头,那就是有600~1500个关键帧,如果一个连续剧有50集那至少也有3000~750000个关键帧。倘若我们再将这个连续剧的数字扩大到电视剧库,那也将会是一个庞大的数字,海量的关键帧,这对以后的视频描述和数据库处理都将是个难题。但是通过视频聚类可以实现,同属一个分类的关键帧实现聚类,缩小检索的范围,提高检索的效率。