Fig.28 HUMANEVAII S4序列,使用增长学习动作模型改善预测:(a)error plot表示整个序列的精确度(b)timing plot表示一旦模型学习到走和跑的动作后的改善效率(c)学习动作图表的2D视觉化(715个顶点 1617个边)表示走,跑和锻炼动作之间清晰分割,预示着动作分割和行为识别的潜在使用。没有任何先验信息下图表进行了自我训练。
当动作从走到跑以及从跑到锻炼的转换时,动作片段的即刻丢失预示着这些动作表现出风格上明显的不同。在Fig.28c中,我们描绘了2D时空邻居图表,鉴别这些不同是否影响图表结构。可以看到,形象化后走和跑的分割可以直接识别。所有连接共有时间邻居(CTN)的边缘线分别受限于包括走动作和包括跑动作的所有顶点的子图。这两个子图仅有一条线连接。锻炼动作的顶点由于动作的非重复模式不具特色。形象好表示出了时空邻居图表应用于动作分割或行为识别方面极具潜力,图表极好的反映出了结构相似性。 7.2 厨房数据集
我们的第二个实验设置是厨房实验(Beetz et al. 2008)。厨房环境被四个天花板安置的摄像机和一个嵌入环境中的传感器网络观察,包括如激光扫描仪,
36 / 47
无线射频识别读数或磁力传感器。
我们记录了人布置桌子的的几组序列。包括在不同位置和环境中的目标的拾取和放置。绝大部分序列在1500帧左右,我们还记录了达5000帧的随机操作任务序列。我们处理了21组序列,用我们的无标记动作捕捉系统跟踪4个不同目标。Fig.29展示了其中一个序列。尽管频繁的目标与环境交互作用和部分遮挡,跟踪结果仍是精确可靠的。某些序列命令非常小的姿势过程,导致部分跟踪失败。最通常的失败经常是在目标到达最右边的橱柜,右臂的举起被跟踪者丢失。原因是举起动作在任何摄像机视野下都是不可见的,即摄像机的不当放置造成了盲点。另外一些不常见的跟踪错误是仅仅几帧手臂或腿交叉动作
Fig.29 厨房序列(1500帧或60秒)每列是一个摄像机视角。注意到目标与物体,抽屉和橱柜的交互作用。
我们决定提供原始视频序列,包括检索的动作捕捉数据。TUM KITCHEN数据集
37 / 47
(Tenorth et al. 2009)可从http://kitchendata.cs.tum.edu公开下载。另,校正视频序列和我们的动作捕捉数据,我们已经增加了来自传感器网络系统的同步传感器读数在ASSISTIVE KITCHEN。包括无线射频识别装置嵌入环境(桌子,柜台面,橱柜)来侦测物体目标如杯子,金属板的位置,磁传感器magnetic(reed) sensor来侦测环境中门或抽屉是打开的还是关闭的。另提供了细致的语义动作标签(为躯干,左手,右手的动作),这个数据集非常适合用于人体动作捕捉和动作分割和行为识别算法的评估。我们数据集的一个关键优势在于场景建模和记录的动作类型的高水平现实性。
联合活动 实验中我们分别记录了两个人清理桌子,装载洗碗机的序列。在联合活动中,两个目标之间传递了几个物件。目标之一打开洗碗机填充他接收的物体,然后关闭洗碗机。另外,一些物体被重新放回柜橱。我们已经使用分层环境模型作为区分相同场景下多样活动的方法。通常,几个人体轮廓的融合会使基于形状的跟踪者混乱。我们可以使用外观模型通过考虑每个人相应的颜色减少这种影响。当然,这需要目标穿着明显不同颜色的衣服。另一个目标这时被看做是动态客体从分割中过滤掉。尽管由于人体间不可避免的颜色重合如皮肤颜色,不能完美过滤。
每个目标被初始化,分别跟踪,最终视频序列通过不同颜色覆盖跟踪结果姿势(Fig.30)。如屏幕中显示,序列以充分的精确性和很少的不完美性被跟踪。尽管有几次目标的动作彼此屏蔽,跟踪质量与单一目标跟踪相当。
38 / 47
Fig.30厨房序列中两个目标联合活动的特点显示(1300帧或50秒)。每一列为一个摄像机视角(展示了4个中的3个)。两个目标完成清理桌子和装载洗碗机的联合活动。
行为识别 最后我们提供了TUM KITCHEN数据集行为识别的实验结果。6.1节介绍了最近邻分类的时空动作片段,该方法适用于细微行为识别。使用图表模型的一些复杂手段如隐马尔科夫模型(HMM)或条件概率conditional random fields(CRF)对动作状态之间的转换概率均不适用。考虑我们的学习图表包含的信息,扩展应用应该是简单明了的。
TUM KITCHEN 数据集为左手,右手和躯干动作提供了地面实况标签,为观察活动平行的高等级动作分别计算(Tenorth et al. 2009)。通常,一只手开柜门,另一只手到达杯子方向,身体仍然朝着柜橱移动。接下来的实验使用的每个序列
39 / 47
1-0到1-2与同一个目标布置桌子的任务一致。布置桌子活动由几个子动作组成,如获得某物,拿起或放下某物。这些子动作与语义标签的粒子匹配。
每个测试序列,每帧的语义标签已经按照最好的匹配动作片段分配。Fig.31描绘了我们数据集左手和右手标签序列1-1和1-2的混合矩阵。可以看到,大部分检索标签分配正确。全局准确率大约为左手90.0%,右手动作82.0%。典型混淆包括“到达”错误归类到“空闲搬运”(本应该归类到“抓取”类),还有开抽屉和关抽屉动作。另外,释放动作经常被错误归类。对右手来说,最经常的错误包括“取”误认为“到达”,“松开”误认为“放”,“放”和“到达”误认为“空闲搬运”。
我们已经找到了这些错误归类的典型原因。首先,语义标签考虑了处理某物,如到达,取,放,松开标签假设某物应该被操作了。但是我们仅比较人的动作模式,而不考虑客体侦测,这些动作此时难以被清晰分辨。另外,取动作总是立即跟随到达动作,松开动作总是立即跟随放动作。因为无缝转换,这经常是导致混淆的共同原因。另一个问题是动作片段的时间扩展远远短于标签动作的时间扩展。因此,当观察到不同动作中出现相似动作片段时,如开抽屉和关抽屉,混淆可能发生。开,即到达抽屉然后拉开。关,即推抽屉,然后缩回胳膊。这两个动作模式都是向前再向后移动手臂。分辨这两种动作可以通过为侦测片段后续动作建模完成(如使用HMMS),或通过补充传感器如无线射频识别(客体侦测)或磁力传感器(侦测柜橱或抽屉的状态)完成。注意观测混淆与使用动作片段预测无关,是因为类似的动作模式导致跟踪者的相似预测。
目前我们已经训练和测试了相同目标。Fig.32给出了交叉目标行为识别的混合矩阵。训练和测试目标的身体高度相差大约25cm,同时他们的动作风格差异很大。为了规范化动作模式,我们已经完成了基于主要人体模型的每个动作片段身体关节位置的所有计算。如预期一样,混淆更加明显了。全局准确率大约左手动作74.0%,右手动作78.8%。没有侦测足够好可以改善我们动作跟踪者的预测。这些结果预示着,最好使用学习特定目标动作模型和基于外部识别成分的模型之间的转换。
40 / 47