计算机视觉技术深度解读之视频动作识别

Kubernetes舵手
• 阅读 2122

作者:极链AI研究院 徐宝函

视频的理解与识别是计算机视觉的基础任务之一。随着视频设备和网络的普通,视频理解也吸引了越来越多研究者的关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。相比图像来说,视频内容和背景更加复杂多变,不同的动作类别之间具有相似性,而相同的类别在不同环境下又有着不同的特点。此外,由于拍摄造成的遮挡、抖动、视角变化等也为动作识别进一步带来了困难。在实际应用中,精确的动作识别有助于舆情监控,广告投放,以及很多其他视频理解相关的任务。

与图像识别相比,视频分析需要更大量数据。早期的数据集KTH[1],Weizmann[2]等仅由演员表演固定的几个动作,如走路,慢跑等。之后,较大规模的数据集如UCF101[3]等由网络视频组成,具体动作类别则由志愿者人工标注完成。目前,研究者发布了更大规模的数据集,例如Kinetics[4]包含了上百类动作以及几十万视频(如图1所示示例),虽然相比实际情况仍不够全面,但也对动作识别的研究有了极大的帮助。
计算机视觉技术深度解读之视频动作识别

图1. Kinetics数据集的示例视频帧

视频动作识别目前常用的技术可以大致分为如下几类:

  1. 基于人工特征的视频动作识别

早期的动作识别主要基于兴趣点的检测和表示。梯度直方图[5],时空兴趣点检测[6],以及光流直方图[7]等都用于提取图像和时序的特征表示。与图像相比,视频蕴含了大量的运动信息,为了更好的利用运动信息,Heng等人提出了密集轨迹的特征[8],密集的提取和追踪光流中每个像素特征,编码后进行分类。然而,当面临大规模数据集时,这些特征缺乏一定的灵活性和可扩展性。

  1. 基于双流的神经网络

近年来,神经网络在图像识别、物体检测等计算机视觉任务上取得了几乎超越人类的成果,研究者在视频任务中也越来越多的开始使用神经网络。然而,直接将用于图像分类的神经网络用于视频分类会忽略视频的时序特征,而时序特征对于视频分类尤为重要。介于此,研究者提出了基于双流的动作识别方法。Simonyan et al. 提出了一个融合网络[9] ,该论文首次将视频分成空间和时间两个部分,分别将RGB图像和光流图像送入两支神经网络并融合最终分类结果。如图2所示,利用双流神经网络,可以同时得到视频中人或物体外表和运动的信息,该方法在当时各个基准数据集上取得了领先的识别水平。

计算机视觉技术深度解读之视频动作识别

图2. 双流神经网络结构图

之后,又有许多研究针对双流网络这种框架进行了一些改进,例如Temporal Segment Network则提出了一种可以捕捉较长时序的网络结构[10]。Xu 提出了基于密集扩张网络的框架[11],并探讨了空间和时间分支的不同融合方式。

  1. 基于三维卷积的神经网络

除了双流网络,还有一些研究者针对视频将神经网络优化为三维卷积神经网络,以此来捕捉更多的时空信息。如图3所示,Tran等人首次提出了在视频动作识别中使用三维神经网络(C3D)代替二维的神经网络[12]。此后,由于ResNet在图像识别任务中取得的较好效果,Hara等人提出了基于三维网络的ResNet[13],Qiu等人也提出了用二维模拟三维神经网络的伪3D网络(P3D)[14]。

计算机视觉技术深度解读之视频动作识别

图3.三维神将网络示意图。

最近,deep mind团队提出了Inflated 3D ConvNets (I3D)[15],具体方法是利用了2D网络权重展开作为3D网络的预训练权重,同时借助大规模的Kinetics数据集进行预训练,在基准数据集上效果得到明显提升。

  1. 其他

此外,仍有很多研究者在探索其他更有效的视频动作识别方法,如基于长短记忆网络(LSTM)的识别框架[16],基于对抗神经网络(GAN)[17]的框架等。

虽然目前动作识别已经取得了快速的发展,但距离人类识别水平仍有很大的差距,在实际应用中也面临着各种各种复杂的问题。我们期待着今后的研究中能够出现更具有可扩展性,鲁棒性的算法和框架。

参考文献:

[1]. C. Schuldt, I. Laptev, and B. Caputo, “Recognizing human actions: a local svm approach,” in ICPR, 2004, pp. 32–36.

[2]. M. Blank, L. Gorelick, E. Shechtman, M. Irani, and R. Basri, “Actions as space-time shapes,” in International Conference on Computer Vision (ICCV), vol. 2, 2005, pp. 1395–1402.

[3]. K. Soomro, A. R. Zamir, M. Shah, "UCF101: A dataset of 101 human actions classes from videos in the wild", arXiv:1212.0402, 2012.

[4]. W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, M. Suleyman, and A. Zisserman, “The kinetics human action video dataset,” arXiv: 1705.06950, 2017.

[5]. N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” CVPR, 2005, pp. 886–893.

[6]. I. Laptev, “On space-time interest points,” International Journal of Computer Vision, vol. 64, no. 2-3, pp. 107–123, 2005.

[7] I. Laptev, M. Marszalek, C. Schmid, and B. Rozenfeld, “Learning realistic human actions from movies,” CVPR, 2008.

[8]. Wang, Heng, and Cordelia Schmid. "Action recognition with improved trajectories." ICCV. 2013.

[9]. K. Simonyan, A. Zisserman, "Two-stream convolutional networks for action recognition in videos", NIPS, pp. 568-576, 2014.

[10]. L. Wang et al., "Temporal segment networks: Towards good practices for deep action recognition", ECCV, pp. 20-36, 2016.

[11]. Xu, Baohan, et al. "Dense Dilated Network for Video Action Recognition." IEEE Transactions on Image Processing (2019).

[12]. D. Tran, L. Bourdev, R. Fergus, L. Torresani, M. Paluri, "Learning spatiotemporal features with 3D convolutional networks", ICCV, pp. 4489-4497, Dec. 2015.

[13]. Hara, K., Kataoka, H., & Satoh, Y. Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet?. CVPR, 2018 , pp. 6546-6555.

[14]. Z. Qiu, T. Yao, T. Mei, "Learning spatio-temporal representation with pseudo-3D residual networks", ICCV, pp. 5534-5542, Oct. 2017.

[15]. Carreira, Joao, and Andrew Zisserman. "Quo vadis, action recognition? a new model and the kinetics dataset.", CVPR 2017.

[16]. Donahue, Jeffrey, et al. "Long-term recurrent convolutional networks for visual recognition and deion.", CVPR. 2015.

[17]. Yu, Feiwu, et al. "Exploiting Images for Video Recognition with Hierarchical Generative Adversarial Networks.", IJCAI. 2018.

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
AI圈凡尔赛:你读那么多论文有什么用,还不如我复现 1 篇!
深度之眼招募人工智能Paper讲师,兼职时间一年可赚30w,招聘详情见文章底部。学计算机视觉千万不能错过图像分割!它是图像理解领域关注的一个热点!是图像分析的第一步!是图像理解的基础,也是图像处理中最困难的问题之一。近些年来随着深度学习技术的逐步深入,图像分割技术迅猛发展,与之相关
Stella981 Stella981
3年前
Octave的安装
本文是参考吴恩达老师的深度学习视频而做的笔记深度学习引言挑战:AI真正的挑战在于解决那些对人类来说很容易执行,但很难形式化描述的问题,比如识别人们所说的话/图像中的脸/分辨苹果和梨。<br解决方案:让计算机从经验中学习,并根据层次化的概念体系理解世界,而每个概念是通过与某些相对简单的概念之间的关系来定义
不是海碗 不是海碗
2年前
人脸跟踪:基于人脸检测API的连续检测与姿态估计技术
基于人脸检测API的人脸跟踪技术在视频监控、虚拟现实和人机交互等领域具有广泛应用。通过连续的人脸检测与姿态估计,可以实现对人脸的跟踪和姿态分析。随着深度学习和计算机视觉技术的不断发展,人脸跟踪技术将迎来更加精确、实时和智能化的发展前景。
幂简集成 幂简集成
7个月前
火爆全网的AI+视频API推荐
AI视频通常指的是由人工智能(AI)技术生成或处理的视频。这可能包括使用深度学习、计算机视觉和其他相关技术来改善视频的质量、内容或生成全新的视频内容。长期以来,人们对AI视频技术应用的认知停留在各种“换脸”和视频特效上。随着AI图像领域的技术发展,AI视频
幂简集成 幂简集成
4个月前
2025年最佳AI视频脚本生成效果比较:首推字节豆包
AI文本生成工具视频脚本设计场景是一种利用人工智能技术自动生成视频脚本的解决方案,其在影视制作、广告创意、内容营销等领域具有重要应用价值。本文针对5个服务商分别从视频脚本生成能力、产品优势、基础技术参数、核心性能指标来进行对比。我们提供了一份详细的比较报告
Kubernetes舵手
Kubernetes舵手
Lv1
已经在原地冲你的背影挥累了手
文章
4
粉丝
0
获赞
0