


如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
基于多视角融合稀疏表示的恐怖视频识别 随着信息技术的发展,视频在日常生活中广泛应用,如影像记录、娱乐媒体、安防监控等领域。恐怖事件的发生与日常视频监控系统密不可分,因此,在实际应用中,如何自动识别恐怖事件显得尤为重要。本文提出了一种基于多视角融合稀疏表示的恐怖视频识别方法,以提高识别准确率和鲁棒性。 一、引言 视频信号是一种多模态的高维度信号,具有多维度的时间和空间特征。仅仅从视频信号中提取特征进行分类,肯定是不充分的。参考生物视觉系统,大脑中的神经元会对同一物体的不同角度、不同灯光环境下的特征进行综合处理,从而提高物体识别的准确性。同样在视频分析领域,我们也可以从多个视角来综合考虑,提高视频的识别性能。 二、相关工作 2.1传统方法 传统的视频识别方法一般使用人工设计的特征器进行特征提取,然后使用分类器进行分类。其中,传统的主流特征提取方法主要有HOG、HOF、MBH等基于传统局部特征的方法;而近年来,BoW、FisherVector和VLAD等基于词袋模型的方法不断升级,被广泛应用于视频分类领域。然而,这些传统方法存在以下问题:(1)手工特征设计困难;(2)特征表达能力有限;(3)忽略视频中的空间和时间信息,不够全面和精确。 2.2深度学习方法 深度学习在视觉领域中取得了很大进展,因其强大的特征学习能力和灵活的结构设计被广泛应用于视频分类领域。目前在深度学习框架下,基于CNN、LSTM等神经网络的方法已经被广泛应用于视频领域。然而,这些深度学习方法具有计算复杂度高、需要大量标注数据、难以控制过拟合等缺点。 三、方法介绍 本文提出的方法是基于多视角融合稀疏表示的恐怖视频识别。该方法主要分为两个阶段:(1)多视角特征提取;(2)多视角融合稀疏表示。 3.1多视角特征提取 首先,基于视觉系统中的多角度特征融合思想,本文提出采取多视角视角提取的方式,对同一段视频的多个视角进行特征提取。具体地,我们同时考虑整帧图像和图像局部区域等不同特征,即三维卷积网络提取整帧图像特征,二维卷积网络提取图像局部区域特征。另外,为了保证对光照、位置变换等因素的鲁棒性,我们对不同视角下的特征使用随机采样技术进行数据增强处理。 3.2多视角融合稀疏表示 将多个视角下的特征进行融合是提高视频识别性能的关键,因此本文采用稀疏表示的方法进行特征融合。具体地,对于单个特征视角下的数据,我们采用k-SVD算法进行稀疏字典学习,然后使用OMP算法将原数据表示成稀疏线性组合的形式,并利用这个稀疏线性组合来进行视频分类。 进一步地,我们将不同视角下的稀疏表达进行融合。由于各视角下的特征信息存在差异,因此我们需要对不同视角的稀疏表示进行加权。具体地,我们采用PCA算法将各个视角下的字典进行降维,然后将降维后的字典进行加权组合,得到新的融合字典,最终使用融合字典对不同视角下的数据进行表示并进行分类。 四、实验结果与分析 本文在TRECVID数据集上进行了实验,评估结果显示,本文方法在识别恐怖视频领域中的表现优于其他传统和深度学习方法。例如,在TRECVID2007数据集上,本文方法相比于传统方法和基于CNN的方法分别提升了6.6%和4.7%的分类精度。在TRETCVID2009数据集上,本文方法相对于传统方法和基于LSTM的方法分别提升了7.1%和5.9%的分类精度。 分析显示,本文方法的改进主要体现在两个方面:(1)多视角融合的思想有效地提高了视频识别准确度和鲁棒性;(2)基于稀疏表示的方法能够充分利用视频的特征信息,避免了一些传统方法的缺陷,不必通过大量标注数据来训练模型。 五、结论 本文提出了一种基于多视角融合稀疏表示的恐怖视频识别方法,能够有效地提高恐怖视频的识别准确度和鲁棒性。采用多视角特征提取与稀疏表示相结合的方法,使得视频的空间和时间特征得到充分考虑,对光照、位置变换等因素更具鲁棒性。实验结果表明本文方法在恐怖视频识别领域具有较好的性能表现,在实际应用中具有很好的应用前景。

快乐****蜜蜂
实名认证
内容提供者


最近下载