2021109513898一种真实场景下的多模态数据集的构建方法.pdf 立即下载
2024-08-17
约7.9千字
约11页
0
1.2MB
举报 版权申诉
预览加载中,请您耐心等待几秒...

2021109513898一种真实场景下的多模态数据集的构建方法.pdf

2021109513898一种真实场景下的多模态数据集的构建方法.pdf

预览

免费试读已结束,剩余 6 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN115019358A
(43)申请公布日2022.09.06
(21)申请号202110951389.8
(22)申请日2021.08.18
(71)申请人东南大学
地址210096江苏省南京市玄武区四牌楼2
号
(72)发明人伍家松王晨琳孔佑勇杨淳沨
杨冠羽姜龙玉沈傲东舒华忠
(74)专利代理机构南京众联专利代理有限公司
32206
专利代理师杜静静
(51)Int.Cl.
G06V40/16(2022.01)
G06V20/40(2022.01)
G06N3/04(2006.01)
G06N3/08(2006.01)
权利要求书2页说明书5页附图3页
(54)发明名称
一种真实场景下的多模态数据集的构建方
法
(57)摘要
本发明公开了一种真实场景下的多模态数
据集的构建方法,该方法将慕课授课视频构建成
包含音频、图像、视频三个模态的数据集;该方法
使用多任务卷积神经网络进行人脸检测,使用
FaceNet提取说话人特征并构建人脸库,在扫描
视频的过程中逐步扩充完善人脸库,通过计算视
频截取的人脸与人脸库中人脸的欧氏距离,对视
频进行分类,并结合ffmpeg完成批量自动化视频
分类和分割,构造出同时带有说话人面部视觉信
息和说话人声音信息的数据集。本发明通过采集
慕课网授课视频,保证了数据集的音频多样性和
场景真实性,有助于训练音频相关深度学习模型
的泛化性能;且全自动批处理方法提高了多模态
数据集的构建效率。
CN115019358A
CN115019358A权利要求书1/2页

1.一种真实场景下的多模态数据集的构建方法,其特征在于,所述方法包括如下步骤:
步骤1,自动化视频分类;
步骤2,对已经分类完成的视频进行批量自动化剪裁;
步骤3,制作及整合各模态数据。
2.根据权利要求1所述的真实场景下的多模态数据集的构建方法,其特征在于,步骤1,
自动化视频分类,具体如下:
1.1,收集慕课网发布的课程视频,所选取视频需满足同时具备高质量音频、高质量视
频画面以及说话人清晰面部信息;
1.2,利用OpenCV截取上述1.1视频中的帧图片,每个视频至少截取10张以上;
1.3,使用多任务卷积神经网络MTCNN对上述1.2中截取的帧图片进行人脸检测;
1.4,将1.3中检测到人脸的图片运用FaceNet提取人脸特征,将得到的特征与人脸库中
已经存在的人脸对比欧氏距离,对于是否放入人脸库,进行如下判断:

设对比的两张人脸图片的n维点空间分别表示为:A=(x11,x12,...,x1n),B=(x21,

x22,...,x2n)


则欧氏距离dAB为:

1)若欧氏距离小于程序设定阈值,说明人脸库中已存在该说话人,将视频放入相应说
话人的文件夹;
2)若欧氏距离大于程序设定阈值,说明人脸库中不存在该说话人,新建该说话人文件
夹,将视频放入新建的说话人对应的文件夹中。
3.根据权利要求1所述的真实场景下的多模态数据集的构建方法,其特征在于,步骤2,
对已经分类完成的视频进行批量自动化剪裁,具体如下:
2.1,从视频头部开始逐帧扫描,扫描每一帧的同时使用多任务卷积神经网络MTCNN进
行人脸检测,记录视频中人脸出现的时间;
2.2,从上述2.1中检测到人脸帧出现的时间开始,使用MTCNN和FaceNet检测视频中是
否存在的人脸和人脸是否为画面中的说话人,若是则保留帧画面,否则抛弃该帧并从此处
切割视频;
2.3,对于画面中同时存在多张人脸的情况做如下处理:根据说话人出现在画面中的位
置,对人脸提取的区域进行约束。
4.根据权利要求1所述的真实场景下的多模态数据集的构建方法,其特征在于,步骤3,
制作及整合各模态数据,具体如下:
3.1,根据上述步骤2中满足人脸筛选要求的帧出现的时间节点,运用ffmpeg提取对应
时间的音频,得到声音模态的数据;
3.2,根据上述步骤2中满足人脸筛选要求的帧出现的时间节点,运用MTCNN提取固定大
小的人脸图片,程序设定为224×224,得到视觉模态数据;
3.3,提取视频音轨,使用OpenCV提取连续帧并写入视频文件,并将提取的连续视频帧
与对应时段的音频合并,构成最终视频数据集。
5.如权利要求1所述的一种真实场景下的多模态数据集的构建方法,其特征在于,步骤

2
CN115019358A权利要求书2/2页
1中,所有用于制作数据集的视频均源自于真实授课场景;运用了深度学习中的人脸检测网
络MTCNN、人脸特征提取FaceNet预训练模型和人脸欧氏距离对比,构建人脸库,并在扫描视
频的过程中逐步动态扩充人脸库,对视频进行自动化分类。
6.如权利要求1所述的一种真实场景下的多模态数据集的构建方法,其特征在于,步骤
2中,
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

2021109513898一种真实场景下的多模态数据集的构建方法

文档大小:1.2MB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用