基于时序模板的动作识别

发布于 2021-01-26 21:40

  • 1 时序模板

    • 1.1 MEI

    • 1.2 MHI

  • 2 基于时序模板的动作识别

  • 3 结果分析

1 时序模板

人的动作可以通过运动信息来表示和识别。Davis97[1]提出使用时序模板(Temporal Templates)来表示和识别人的动作。时序模板包括历史运动图像MHI(Motion History Image)和运动能量图像MEI(Motion Energy Image),因此,时序模板可看作一幅向量图,图中的每个元素是一个向量。MEI表示图像中哪些区域发生了运动,而MHI记录了每一像素点的历史运动信息。另外,由于运动是与视角相关的,因此每个动作使用多个视角的MHI和MEI来表示。这样,时空变化的运动信息被压缩到静态图像MEI和MHI中,通过分析MEI和MHI的基于统计矩的特征(moment-based feartures)对不同的动作进行分类。这种方法计算简单且易于实现。

1.1 MEI

设图像序列,根据图像相减法(image-differencing)得到表示运动区域的二值图像序列,其中表示第帧的前景区域,表示第帧的背景区域。MEI的定义如下:

其中,表示动作的持续时间(temporal extent)。如Figure 1所示。

Figure 1. Example of someone sitting. Top row contains key frames; bottom row is cumulative motion images starting from Frame 0.

由于动作是与视角相关的(view-specific),因此每个动作需要从多个视角进行描述。对“坐”动作进行范围采样,如Figure 2所示。

Figure 2. MEIs of sitting action over 90^0 viewing angle. The smooth change implies only a coarse sampling of viewing direction is necessary to recognize the action from all angles.

1.2 MHI

在MHI图像中,每一个像素值记录了该点的运动历史信息,定义如下:

越近时间发生运动的像素点,其MHI值越大,如Figure 3所示。

Figure 3. Action moves along with their MHIs used in a real-time system.

2 基于时序模板的动作识别

论文通过分析MEI和MHI的统计矩特征对不同的动作进行识别,如Figure 4所示:

  1. 数据训练:① 对不同的动作进行数据采集,每个动作覆盖不同的视角;② 计算每个动作不同视角的MEIs和MHIs;③ 计算MEIs和MHIs的统计矩特征Hu62[2]
  2. 动作识别:同理,对输入的动作计算MEI和MHI的统计矩特征,通过Mahalanobis distance进行匹配和识别
Figure 4. 基于时序模板的动作识别

3 结果分析

我们采集了18种体操动作在7个视角的数据(+,采样间隔为)。Figure 5是正面视角下的动作示意图和对应的MEI图。

Figure 5. A single key frame and MEI from the frontal view of each of 18 aerobics exercises used to test the representation.

Table 1记录单摄像机系统的结果,有12个动作可以正确识别。从左到右分别是:输入动作和训练集的最小距离、最小距离所对应的动作编号、输入动作和训练集中正确匹配的动作的距离、输入动作和训练集的距离的中位值以及输入动作和正确动作的距离的排序位置(升序)。

Table 1. Test results using one camera at 30^0 off frontal. Each row corresponds to one test move and gives the distance to the nearest move (and its index), the distance to the correct matching move, the median distance, and the ranking of the correct move.

为了提高动作识别系统的准确率和鲁棒性,可以使用双摄像机系统(左摄像机: to the left; 右摄像机: to the right; 两摄像机成)。Tabel 2记录双摄像机系统的结果,有15个动作可以正确识别。在双摄像机系统中,将两个摄像机的时序模板,与训练集中每个动作中互成的两个视角的时序模板的距离之和作为距离测度。

Table 2. Results using two cameras where the angular interval is known and any matching views must have the same angular distance.

参考资料

[1]

Davis97: The-representation-and-recognition-of-action-using-temporal-templates

[2]

Hu62: Visual-pattern-recognition-by-moment-invariants

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材