胳膊在桌子上可以被看见的时候,我们从屏蔽区域中排除所有类似人体目标的前景区域:
这里,OR与像素与运算符(∨)一致。Fig18展示了使用这种遮挡模型的结果。遮挡区域被补偿的数量取决于设置的摄像机数量。也就是说,身体部分应该始终被不少于3台摄像机观察到。在更多遮挡的场景下就需要更多摄像机。
Fig.17 打开柜子(从左到右)的例子:(a)原始图像(b)未更改的前景掩模IF(c)未使用外观模型的跟踪结果(d)经移除非人体目标的前景掩模IF’(e)使用我们模型的跟踪结果。每一行显示了一台摄像机视角。掩模中的白色区域描绘了点集。
Fig.18 遮挡桌子的例子(从左至右):(a)原始图像(b)未使用屏蔽掩模和外观的跟踪结果(c)原始屏蔽掩模IB(d)移除类似人体部分的屏蔽掩模IB’’(e)使用我们模型的跟踪结果。每一行展示了一个摄像机视角。掩模中的白色区域描绘了点集(黑色区域是屏蔽区域)。 6 自训练动作模型
21 / 47
正如我们的实验结果(第7节)中展示的,我们的系统能够跟踪复杂环境中的大范围种类动作。公式1中使用综合动作模型,我们能够跟踪适应我们生物力学动作极限(帧间和帧外)的各种动作模型。尽管需要的计算代价较高(10-15秒每帧),未知抽样比预知抽样需要更多的粒子评估。
从训练数据中提前学习人体动作是创造动作预测的一种方法。可能的人体姿势空间非常大。围绕复杂多样的人体动作模式提取好的训练数据是非常困难的,并且通常需要使用昂贵的基于标记的动作捕捉系统。最后,动作训练经常与特定环境的动作不符,所以实用性较差。
我们提出的使用综合动作跟踪可以随着时间学习特定环境和任务动作模型,可以为观察的重复行为改善动作预测。Fig.19描绘了这种策略。在每个时步,我们使用当前的历史动作创建一个称为动作片段来呈现一个短的动作模式。这些动作片段与学习动作模型匹配,检查动作模式的一致性。当没有匹配成功时,我们使用未知动作模型(需要昂贵的计算代价)来创建新的姿势预测。最终的姿势评估被用来作为自训练观察动作,作为将来类似动作模式的侦测。不管何时,若已知的动作模式已经被侦测到了,我们可以应用基于先前已观测动作预测到的最可能的后续动作来创建潜在的更精确的姿势预测。基于改进的预测,我们可以使用较少的粒子评估更高效的跟踪步骤实现相同的精确度(可加速4-6倍)。并且,通过标记学习到的动作数据,我们可以使用观察的动作和训练动作模式的一致性进行行为识别。
22 / 47
Fig.19 使用特定环境动作模型改善人体动作跟踪预测和人体行为识别。使用先前观察的在特定环境中典型的动作模式作为训练动作模型。跟踪过程中,使用上次评估姿势的瞬时动作历史的动作片段与训练模式比较。如果侦测到一致,使用储存在动作模型中的信息更精确的预测现在的姿势。这样我们跟踪的计算效率就更高了。如果没有找到匹配信息,使用综合动作模型的正常跟踪步骤完成跟踪。新的评估(未知)姿势将被扩充到动作模型中。另外,为训练数据提供语义标签,这个动作模型就可用来进行行为识别。 6.1 空间-时间邻近图形
我们的目的是创建人体动作的可再生模型,即递归评估过程中能够预测现在姿势可能的后续姿势。很多方法试图通过训练姿势的低维度嵌入学习动作模型改善预测(Urtasun and Fua 2004; Urtasun et al. 2006)。这样的模型是全局的,他们处理每一步的全部训练集合,为所有数据点创建持续嵌入。全局约束相比局部约束可能会丢失数据相关细节(Datta et al. 2009)。为近期预测,局部约束更为适用。
我们提出人体动作的基于图形表现由ST-Isomap(Jenkins and Matari ′c2004)引出,一种非线性降维算法Isomap (Tenenbaum et al.2000)的时空扩展。非线性降维算法(and also ST-Isomap)使用三个步骤将非线性空间评估出数据点集
23 / 47
的固有几何形状。首先,连接局部邻居内的所有数据点创建未指定的权重图表。其次,从图中计算所有两两最短路径矩阵。最后,通过多维标度分析(MDS)计算所有数据点的相对距离,降维嵌入保留这些距离信息。
在我们的工作中,我们省略了计算所有数据点两两最短路径矩阵和使用MDS嵌入。这些步骤用来找到第一步测量距离的全局嵌入,没有增加额外信息(相反,当选择嵌入的维度过低时信息可能会丢失)。另外,第三部和第二部的节省计算量降低了从O(n3)到O(n2)的复杂度(可能比使用近似的最近邻方法更简单)。这样我们可以使用更多数据点,可得到潜在的多个式样的较好近似,即可得到更好的预测。另一个优势是测量距离图表可自行增加升级。
正如ST-Isomap,我们使用指定的图表结构来为人体姿势的时间连续动作建模。我们期望训练数据按照顺序排列,移除所有与之前动作没有足够不同的姿势来确保姿势序列与实际动作一致。这步通过计算两个姿势相应身体关节的欧氏距离(我们设置阈值为2cm)完成。这样也有助于动作速度标准化,相比快动作,慢动作中更多帧将被移除。我们从持续姿势中创建有序的点的图表,连接每个点到它的定向时间后续点的指定路径边缘,这个过程在Fig.20中阐释。为捕捉人体动作的时间结构,我们不仅通过相应姿势,并且通过他的短期时间历史姿势组成的动作片段联系每个顶点。因此,当计算类似的顶点时,需比较相应的时间窗口,注意时间窗口是重叠的(Fig.20)。
Fig.20时空紧邻图表的有序创建。这个图表由s个姿势的有序时间序列中创建
24 / 47
(这个例子中s=7)。为每个新姿势创建一个顶点,并与基于姿势和它的定向时间历史构成的动作片段联系。添加定向边缘来编译姿势连续性。每个顶点内编译的时间窗口是重叠的。
每个顶点Vi与空间时间动作片段?(I)(编译与第i个姿势相一致的短期动作模式得到)联系,我们使用这些动作片段来计算观察的动作模式之间的相似性测量。Fig.21给出了一些例子。可以看到,对于人们从这些短期姿势序列中,通过现在的动作预测即刻后续动作相对容易。数学上,一个动作片段是s个连贯姿势中表示身体关节位置的向量?(我们使用s=7):
这里?(I)由短期瞬时姿势历史计算,即,从时间间隔[i-(s-1):i]中的所有姿势中得出。它是每个姿势中28个身体关节位置的连结
。向量?的维度d=28*3*s。注意上标(I,j)表
示动作片段的索引I,相对的时间窗口中的姿势索引j≤0(j=0时是现在最近的姿势)。下标bp在我们的模型中用来识别身体部位(Fig.3中可以看到)。 时空动作片段?(I)的一个重要方面是从关联姿势的原点坐标编译。即,所有身体关节位置由第i个姿势时骨盆坐标系统HBEC(i)给出,因此,动作片段由于在起始点开始观察,所以位置上是独立的,这样储存不同空间发生的类似动作模式就变得不必要了,有助于改善训练集的效率。注意到动作片段的所有同一时间窗口的姿势使用相同坐标系统,所以相对空间扩展可以保持(所以叫做时空动作片段,见图Fig.21)。
25 / 47