基于多尺度时序交互的第一人称行为识别方法

罗祥奎, 高陈强, 陈欣悦, 王升伟

重庆邮电大学学报(自然科学版) ›› 2024, Vol. 36 ›› Issue (03) : 524-532.

基于多尺度时序交互的第一人称行为识别方法

  • 罗祥奎, 高陈强, 陈欣悦, 王升伟
作者信息 +
History +

摘要

对于第一人称行为识别任务,现有方法大多使用了目标边界框和人眼视线数据等非行为类别标签对深度神经网络进行辅助监督,以使其关注视频中手部及其交互物体所在区域。这既需要更多的人工标注数据,又使得视频特征的提取过程变得更为复杂。针对该问题,提出了一种多尺度时序交互模块,通过不同尺度的3D时序卷积使2D神经网络提取的视频帧特征进行时序交互,从而使得单一视频帧的特征融合其近邻帧的特征。在只需行为类别标签作监督的情况下,多尺度时序交互能够促使网络更加关注第一人称视频中手部及其交互物体所在区域。实验结果表明,提出的方法在识别准确率优于现有第一人称行为识别方法。

关键词

行为识别 / 第一人称视觉 / 时序交互 / 深度学习

中图分类号

TP391.41 / TP183

引用本文

导出引用
罗祥奎, 高陈强, 陈欣悦, 王升伟. 基于多尺度时序交互的第一人称行为识别方法. 重庆邮电大学学报(自然科学版). 2024, 36(03): 524-532

基金

重庆市教委科学技术研究项目(KJZD-K202100606)

评论

Accesses

Citation

Detail

段落导航
相关文章

/