当前位置:主页 > 资料 >

ECCV2018 | 美图云联合中科院提出基于交互感知注意
栏目分类:资料   发布日期:2018-08-03   浏览次数:

导读:本文为去找网小编(www.7zhao.net)为您推荐的ECCV2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术,希望对您有所帮助,谢谢! 一、背景 深度卷积神经网络中,

本文为去找网小编(www.7zhao.net)为您推荐的ECCV2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术,希望对您有所帮助,谢谢!

本文来自去找www.7zhao.net



一、背景

深度卷积神经网络中,特征图里相邻空间位置的局部通道特征,往往由于它们的感受野重叠而具有很高的相关性。自注意机制模型通常利用每个局部特征内部元素的加权和(或其他函数)来获得其权重得分,此权重用于加权所有局部特征获取关键特征。尽管局部特征之间具有很高的相关性,但此权重计算并没有考虑到它们之间的相互作用。

www.7zhao.net

PCA可以提取全局特征主要维度的主成分信息,而这些主成分信息可以看作是提取的局部特征,最后降维后的全局特征即是关键局部特征的集合。注意机制的目的是从局部特征集合中提取关键部分,也就是PCA中的局部特征。不同的是注意力机制使用每个局部特征对应的加权得分来计算最终的全局特征。PCA利用协方差矩阵来获得降维(或加权权重)的基向量,从而减少特征间的信息冗余和噪声。基于以上背景,该团队使用PCA来指导提出的注意力模型,并通过将PCA算法转换成损失设计实现。此外,由于深度网络中的不同层可以捕获不同尺度的特征图,算法使用这些特征图来构造空间金字塔,利用多尺度信息来计算每个局部通道特征更精确的注意力分数,这些权重得分用于在所有空间位置中对局部特征进行加权。

去找(www.7zhao.net欢迎您

二、核心思想

内容来自www.7zhao.net

本论文定义了一个新的交互感知时空金字塔注意力层,以此实现输入在深度卷积神经网络中各个层的不同尺度局部特征的交互感知和时空特征融合的功能。它的架构如上图所示,算法首先定义了一个下采样函数R, 将不同层的特征图统一到一个尺度。接着对不同尺度的特征图的局部通道特征使用注意力机制进行关键特征提取,通过使用融合函数对不同尺度的特征进行融合,并计算每个局部特征的注意力得分,用于加权特征。

copyright www.7zhao.net

去找(www.7zhao.net欢迎您

在PCA 中使用协方差矩阵计算投影向量并依此进行降维,即提取关键的局部特征,本论文将其转化损失函数的设计加入到最终的模型中:

内容来自www.7zhao.net

本文来自去找www.7zhao.net

再对提出的空间金字塔注意力模型进行约束,使其不同尺度层的特征图尽量关注到不同的信息,加入分类损失得出最终的损失函数: copyright www.7zhao.net

去找(www.7zhao.net欢迎您

论文提出的模型参数与输入特征图的数目无关,因此,自然地将其拓展到视频级端到端训练的时空网络,最终的网络结构定义如下图: copyright www.7zhao.net

去找(www.7zhao.net欢迎您

三、效果

研发人员将提出的基于交互感知的时空金字塔注意力机制神经网络算法应用于美图公司的视频相关业务进行人物行为分类,效果表现优异。除此之外在公开数据集UCF101、HMDB51和无裁剪行为数据库Charades上进行了评测,也取得了领先效果,结果如下图所示:

去找(www.7zhao.net欢迎您

内容来自www.7zhao.net

去找(www.7zhao.net欢迎您

此外,该论文对视频时空输入进行了评测,评测结果显示出该模型能够同时处理任意数量的视频帧输入,并取得较好的实验结果。 去找(www.7zhao.net欢迎您

copyright www.7zhao.net

内容来自www.7zhao.net

上图给出了该算法在进行行为分类时的可视化输出结果,可以看出该算法能够对视频中关键的行为进行精确定位。

www.7zhao.net

四、展望

实际应用中,业务场景对算法的运行时间要求较严苛。本论文在公开数据集上的结果均通过截取视频中的多帧得到,时间复杂度较高,后续会以降低算法时间复杂度为目标对核心模块进行优化。值得注意的是,本论文提出的空间金字塔注意力模型不受其输入特征图数量的限制,因此它很容易扩展到一个可以兼容任意数量的输入帧的时空版本,在应用中可以在分类准确率几乎不受影响的前提下,通过减少截帧数提升处理速度。

内容来自www.7zhao.net

内容来自www.7zhao.net


本文原文地址:http://www.infoq.com/cn/articles/interaction-aware-spatio-temporal-pyramid-attention

以上为ECCV2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术文章的全部内容,若您也有好的文章,欢迎与我们分享! 内容来自www.7zhao.net

Copyright ©2008-2017去找网版权所有   皖ICP备12002049号-2 皖公网安备 34088102000435号   关于我们|联系我们| 免责声明|友情链接|网站地图|手机版