介于RGB视频数据的深度行为分类模型发展综述之一
发布时间:2022-06-01 09:45:34 所属栏目:安全 来源:互联网
导读:理解视频中的人体行为在视频监控、自动驾驶以及安全保障等领域有着广泛的应用前景。目前视频中的人体行为分类研究是对分割好的视频片段进行单人的行为分类。对视频中的人体行为分类研究已经从最初的几种简单人体动作到几乎包含所有日常生活的几百类行为。近
理解视频中的人体行为在视频监控、自动驾驶以及安全保障等领域有着广泛的应用前景。目前视频中的人体行为分类研究是对分割好的视频片段进行单人的行为分类。对视频中的人体行为分类研究已经从最初的几种简单人体动作到几乎包含所有日常生活的几百类行为。近些年来基于RGB视频数据的先进深度行为分类模型可以分为三类:基于双流架构的、基于循环神经网络RNN的和基于3D卷积神经网络的。本文将详细介绍前两种深度行为分类模型。 一、视频行为分类 当前人体行为识别的研究主要分为两个子任务:行为分类和时序行为检测。行为分类一般是对分割好的视频片段进行行为分类,每一个视频片段仅包含一个行为实例。然而,现实生活中大部分视频都是未分割的长视频,因此时序行为检测任务从未分割的长视频中检测出行为的开始、结束时间以及行为类别,一段长视频中一般包含一个或多个行为实例。行为分类是时序行为检测的基础,时序行为检测是比行为分类更复杂的研究任务,行为分类的经典模型(如TSN,C3D,I3D等)也被广泛用于时序行为检测任务当中。现在视频中人体行为识别的研究工作大部分都致力于提高行为分类模型的性能,并且研究最广泛的是对单人行为的识别。 二、评估数据集 对于数据驱动的深度学习方法来说,庞大的视频数据量显然能够提升模型的性能。本文选用了最新且规模更大视频数据集kinetics,来分别比较最新的基于RGB视频输入数据的行为分类模型的性能,同时也使用典型的视频数据集UCF101, 帮助分析和比较经典的深度行为分类模型。UCF 101和Kinetics数据集的评估度量标准都是是平均精度均值(mAP)。在对视频中的行为进行分类时,每一个视频片段都会预测一个行为标签。假设有C个行为类别,每个视频片段都对应一个有C个元素的列表,每个元素代表着该视频属于行为c的概率,并将C个类别标签按照概率值从高到底排序。假设一共有n个视频片段,并取一个视频片段的预测得分列表中的前k个值,P(k)分别是类别标签排名在前k的预测概率值,rel(k)是指示函数,表明第k个标签是否是真阳性(true positive),如果是则为1,否则为0。因此,某个行为类别的平均精度(AP)的计算方式是 三、深度行为分类模型 在视频人体行为分类的研究中,关键且具有挑战性的一个问题是如何从视频的时序维度上获得人体的运动信息。基于RGB视频的深度学习方法根据时序建模方式的不同可以分为基于双流架构的,基于循环神经网络(RNN)的和基于3D卷积神经网络的。早期将深度学习方法扩展应用于RGB视频中的一个经典尝试是,扩展2D卷积神经网络形成双流架构,分别来获得视频帧的空间特征以及帧间的运动特征。随后有研究将循环神经网络(RNN)与卷积神经网络(CNN)结合,试图学习更全局的视频时序信息。考虑到视频本身是多了时间维度的3D体,3D网络则直观地使用3D卷积核来获得视频的空时特征。这些基于RGB视频的行为分类方法主要关注两点:(1)如何在视频中提取出更具有判别力的外观特征;(2)如何获得时序上视频帧外观的改变。在介绍这类深度学习的方法之前,不得不首先提一下经典的手工提取特征的方法iDT(improved Dense Trajectories)[1],是深度学习应用到视频领域之前性能最好的方法,它通过光流追踪图像像素点在时间上的运动轨迹。该方法有个很大的缺点是获得的特征维度甚至比原视频还要高,计算速度非常慢。 (编辑:应用网_丽江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |