【ICCV 2021】OadTR框架:基于Transformers的在线行为检测任务
发布于 2021-09-11 17:35
文章链接:
https://www.zhuanzhi.ai/paper/53362aeb4b9db03e3a01fa3dec5469a1
在当前的主流方法大部分都基于RNN(Recurrent Neural Network)来对时间依赖性进行建模,并取得了令人印象深刻的效果, 如Temporal recurrent networks (TRN) [1]和Information Discrimination Network (IDN) [2]等。典型的,IDN[2]设计了一种类似RNN的架构,利用当前信息来控制历史信息的传递,进而对长期历史信息进行编码,最后对当前动作进行识别。然而,这种RNN-like的架构存在非并行性和梯度消失的问题。
因此,很难对其框架结构进行优化,因此可能导致性能不理想,同时计算效率也不高。为了进一步提高性能,我们需要设计一个新的高效且易于优化的框架。
为此,我们提出使用Transformers。Transformers具有强大的自注意模块,具有长程时序建模的能力,同时在自然语言处理领域和各种视觉任务中都取得了显著的成绩。并且已有的工作已经证明,Transformers具有比RNN架构更好的收敛性,并且Transformers也具有更高计算效率。
![](https://weixin.aisoutu.com/cunchu4/4/2021-09-11/4_16313620994982002.jpg)
上述的观察启发了这篇工作,具体来说,我们提出了一个精心设计的框架,称为OadTR,将Transformers引入到在线行为检测任务中。特别的,我们提出的OadTR是一个encoder-decoder结构,它可以同时学习长期的历史关系和未*来的信息来分类当前的动作。 我们将OadTR与其他基于RNN的方法进行了比较,结果表明,所提出的OadTR方法不仅高效而且性能更高。令人振奋的是,OadTR在HDD [3]、TVSeries [4]和THUMOS14 [5]三个数据集上进行了大量的实验,在mAP和mcAP等指标上都取得了显著的改进并达到了当前的最好水平。
专知便捷查看
后台回复“ODTR” 就可以获取《【【ICCV 2021】OadTR框架:基于Transformers的在线行为检测任务》专知下载链接
![](https://weixin.aisoutu.com/cunchu4/4/2021-09-11/4_16313569456072.png)
![](https://weixin.aisoutu.com/cunchu4/4/2021-09-11/4_16313545401132002.jpg)
本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。
相关素材