【ICCV 2021】OadTR框架:基于Transformers的在线行为检测任务

发布于 2021-09-11 17:35

文章链接：
https://www.zhuanzhi.ai/paper/53362aeb4b9db03e3a01fa3dec5469a1

在当前的主流方法大部分都基于RNN（Recurrent Neural Network）来对时间依赖性进行建模，并取得了令人印象深刻的效果，如Temporal recurrent networks (TRN) [1]和Information Discrimination Network (IDN) [2]等。典型的，IDN[2]设计了一种类似RNN的架构，利用当前信息来控制历史信息的传递，进而对长期历史信息进行编码，最后对当前动作进行识别。然而，这种RNN-like的架构存在非并行性和梯度消失的问题。

因此，很难对其框架结构进行优化，因此可能导致性能不理想，同时计算效率也不高。为了进一步提高性能，我们需要设计一个新的高效且易于优化的框架。

为此，我们提出使用Transformers。Transformers具有强大的自注意模块，具有长程时序建模的能力，同时在自然语言处理领域和各种视觉任务中都取得了显著的成绩。并且已有的工作已经证明，Transformers具有比RNN架构更好的收敛性，并且Transformers也具有更高计算效率。

上述的观察启发了这篇工作，具体来说，我们提出了一个精心设计的框架，称为OadTR，将Transformers引入到在线行为检测任务中。特别的，我们提出的OadTR是一个encoder-decoder结构，它可以同时学习长期的历史关系和未*来的信息来分类当前的动作。 我们将OadTR与其他基于RNN的方法进行了比较，结果表明，所提出的OadTR方法不仅高效而且性能更高。令人振奋的是，OadTR在HDD [3]、TVSeries [4]和THUMOS14 [5]三个数据集上进行了大量的实验，在mAP和mcAP等指标上都取得了显著的改进并达到了当前的最好水平。

专知便捷查看