多媒体信息处理-视频运动估计算法(2)

2019-02-15 15:32

武汉理工大学《通信工程应用技术综合训练与实习》报告

的就是用最少的输出比特来表示初始的视频信息。如前文所述，运动估计用来去除帧间的时间冗余。

在帧间预测编码中，由于活动图像邻近帧中的景物存在着一定的相关性。我们通常利用各帧之间的相关性来压缩视频信号。例如，可将当前帧分成若干块或宏块，并设法搜索出每个块或宏块在前一帧图像中的位置，并得出两者之间的空间位置的相对偏移量，得到的相对偏移量就是通常所指的运动矢量，得到运动矢量的过程被称为运动估计。

图1.1 视频编码器结构

运动矢量的信息被编码并发送到解码端，这样，在解码端按照运动矢量指明的位置，从已经解码的前一参考帧图像中找到相应的块或宏块，和预测误差相加后就得到了块或宏块在当前帧中的位置。由于用来表示运动矢量的比特数在通常情况下都远远小于直接表示当前帧的比特数，因此，利用运动估计技术可以大大减少表示当前帧的比特数。由此可以看出，运动估计是视频压缩处理系统中的一个重要组成部分。

在大多情况下，当前块和参考块之间的误差（帧间误差）比较大，同时存在空间冗余。因此，编码器中对帧间误差进行DCT或DWT变换，以消除帧间误差在空间的相关性。DCT或DWT的系数经过量化后被编码和传输到接收端，解码器可以利用编码和表示帧间误差的比特来提高重建帧的质量。

武汉理工大学《通信工程应用技术综合训练与实习》报告

2 运动估计原理

运动估计是数字视频处理的基本问题之一，它涉及到图像平面二维运动或物体三位运动的估算，其中二维运动估计除了是迈向三维运动分析的第一步，还作为运动补偿滤波和压缩的重要部分，本章只介绍二维运动估计，并着重介绍块运动估计方法。

2.1 基于块的运动估计

块运动模型是假设图像由运动的块构成。块运动估计算法的目的是从参考帧（先前重建的帧）的搜索窗中寻找和当前块相匹配的块（参考块）。

图2.1 块匹配法原理图

假设图像中每块的大小为M×N，dxmax为参考块水平方向可搜索最大位移而dymax为参考块垂直方向可搜索最大位移，那么基于块匹配的运动估计就是在参考帧（或者其它上一帧）的(M+2dxmax)×(N+2dymax)候选区搜索窗口中找到和目标帧的当前大小为M×N的块的最匹配的块，参考块的运动矢量可用如下的数学公式描述：

(2-1)

R 表示相关性评价函数，f(m,n)表示目标或当前帧图像的亮度值。满足R为最大时的X、Y为运动矢量，用MV表示。

武汉理工大学《通信工程应用技术综合训练与实习》报告

(2-2)

参考块和当前块的相似度通常用平均绝对差值（Mean Of Absolute Difference, MAD）表示。

有些文献中MAD演变为绝对差和：

（2-3）

2.2 基于光流方程的运动估计

基于光流方程的方法是试图依据时空图像亮度梯度来得到一个光流场的估算。对于单色图像需要与合适的时空平滑约束条件联合使用，这个条件要求位移矢量在附近区域缓慢变化。对于彩色图像，可分别施加于每个颜色带，它能够约束三个不同方向的位移矢量。然而，在绝大多数的情况下，一个适当的平滑度约束条件对于获得满意结果也是需要的。整体平滑度约束条件引起遮挡边界上的不准确的运动估算，更先进的有向平滑约束条件允许运动场中有突变的间断点。

2.3 基于像素的运动估计

在基于像素的运动估计中，必须估计每一个像素的运动矢量。显然，这个问题是难于处理的。如果使用恒定亮度假设，对于锚定帧的每一个像素，在目标帧里将会有许多完全相同亮度的像素。如果使用光流方程，这个问题仍然是不确定的，因为未知数只有一个方程。为了防止这个问题发生，一般有四种方法：第一，可以使用正则化技术在运动场上施加平滑约束，使得新像素的运动矢量受周围像素的已找到的那些运动矢量的约束。第二，可以假定每一个像素周围领域中的运动矢量是相同的，并且把恒定亮度假设或光流方程应用到整个领域。第三，可以利用另外一些不变量约束；除导致光流方程的亮度不变量外，还可以假设运动中的亮度梯度是不变的。最后，可以利用运动场前后帧的相位函数之间的关系。

2.4 全局运动估计

武汉理工大学《通信工程应用技术综合训练与实习》报告

对于基于网格的运动表示，锚定帧中的图像被分成互不重叠的多边元素，每一个元素用几个节点和节点的连线表示，这样的元素称为网格。基于网格的运动估计一般要解决两类问题：

在锚定帧中给定一个网格，如何确定目标帧中的节点位置，这实质上是一个运动估计问题。

在锚定帧中如何建立网格，使得网格与物体的边界一致。

注意，每一个元素对应于单个物体的一小块光滑表面的网格比任意配置的网格（例如，正规网格）能得到更精确的估计。一个物体自适应的网格也将更适应于帧序列的运动跟踪。关于网格生成，主要方法有健壮估计器、直接估计和间接估计。这里就不详细讲述了。

2.5 基于区域的运动估计

在基于区域的的运动估计中，把图像帧（锚定帧）分割成多个区域，并估计每一个区域的运动参数。这种分割应该使一个单一的参数运动模型可以很好地表示每个区域进行单独的平移运动。然而这个要求会造成太多小的区域，因为在对应于一个物理物体的区域中的二维运动，极少能够用一个简单的平移来模型化。这样一个区域必须分割成许多小的子区域，使每一个区域具有单一的平移运动。对于更高效的运动表示，应该使用正交和透视运动模型。

一般实现基于区域的运动估计有3中方法：

（1）第一种方法，首先把图像帧分割成不同的区域，即基于纹理同质性、边缘信息以及有时通过对两帧间不同图像的分析得到的运动边界，然后估计每一个区域中的运动，称这种方法为区域优先。

（2）第二种方法，首先估计整个图像的运动场，然后分割得到的运动场，使得每一个区域的运动可以用单一的参数模型描述，称这种方法为运动优先。得到的区域可以在一些空间的连通性约束下进一步优化。这个方法中的第一步可以利用前面描述的各种运动估计方法实现，包括基于像素、块、和网格的方法。第二步涉及基于运动的分割，这里不再详细讲述。

（3）第三种方法是对区域分割和每一个区域的运动进行联合估计。一般这

武汉理工大学《通信工程应用技术综合训练与实习》报告

时用一个迭代过程实现的，交替地进行区域分割和运动估计。

2.6 多分辨率的运动估计

前面介绍的运动估计方法存在的问题有：最小化误差函数可能收敛到局部最小值和最小化误差函数过程的计算量很大。

多分辨率运动估计可有效解决这两个问题。

首先在最小分辨率层（由空间低通滤波和欠取样获得）进行运动估计，并把结果作为下一层的初始解。

然后每层依次进行运动估计，每层的运动估计结果都将作为下一层的初始解每层的运动估计可使用前面介绍的方法，如基于光流、像素、块、网格等运动估计方法。

图2.2 多分辨率运动估计分层

多分辨率运动估计优点：

（1）运动场接近最优解的概率更大

（2）较小分辨率层上，误差函数可以接近全局最小值，通过插值，获得高分辨率上的初始解，最后到达最大分辨率时，误差函数接近全局最小值的可能性更大。

（3）计算量比直接在最大分辨率上进行运动估计时要小（4）较小分辨率层上，搜索范围限制在较小的范围。

共7页:

多媒体信息处理-视频运动估计算法(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档