




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号CN115019358A (43)申请公布日2022.09.06 (21)申请号202110951389.8 (22)申请日2021.08.18 (71)申请人东南大学 地址210096江苏省南京市玄武区四牌楼2 号 (72)发明人伍家松王晨琳孔佑勇杨淳沨 杨冠羽姜龙玉沈傲东舒华忠 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师杜静静 (51)Int.Cl. G06V40/16(2022.01) G06V20/40(2022.01) G06N3/04(2006.01) G06N3/08(2006.01) 权利要求书2页说明书5页附图3页 (54)发明名称 一种真实场景下的多模态数据集的构建方 法 (57)摘要 本发明公开了一种真实场景下的多模态数 据集的构建方法,该方法将慕课授课视频构建成 包含音频、图像、视频三个模态的数据集;该方法 使用多任务卷积神经网络进行人脸检测,使用 FaceNet提取说话人特征并构建人脸库,在扫描 视频的过程中逐步扩充完善人脸库,通过计算视 频截取的人脸与人脸库中人脸的欧氏距离,对视 频进行分类,并结合ffmpeg完成批量自动化视频 分类和分割,构造出同时带有说话人面部视觉信 息和说话人声音信息的数据集。本发明通过采集 慕课网授课视频,保证了数据集的音频多样性和 场景真实性,有助于训练音频相关深度学习模型 的泛化性能;且全自动批处理方法提高了多模态 数据集的构建效率。 CN115019358A CN115019358A权利要求书1/2页 1.一种真实场景下的多模态数据集的构建方法,其特征在于,所述方法包括如下步骤: 步骤1,自动化视频分类; 步骤2,对已经分类完成的视频进行批量自动化剪裁; 步骤3,制作及整合各模态数据。 2.根据权利要求1所述的真实场景下的多模态数据集的构建方法,其特征在于,步骤1, 自动化视频分类,具体如下: 1.1,收集慕课网发布的课程视频,所选取视频需满足同时具备高质量音频、高质量视 频画面以及说话人清晰面部信息; 1.2,利用OpenCV截取上述1.1视频中的帧图片,每个视频至少截取10张以上; 1.3,使用多任务卷积神经网络MTCNN对上述1.2中截取的帧图片进行人脸检测; 1.4,将1.3中检测到人脸的图片运用FaceNet提取人脸特征,将得到的特征与人脸库中 已经存在的人脸对比欧氏距离,对于是否放入人脸库,进行如下判断: 设对比的两张人脸图片的n维点空间分别表示为:A=(x11,x12,...,x1n),B=(x21, x22,...,x2n) 则欧氏距离dAB为: 1)若欧氏距离小于程序设定阈值,说明人脸库中已存在该说话人,将视频放入相应说 话人的文件夹; 2)若欧氏距离大于程序设定阈值,说明人脸库中不存在该说话人,新建该说话人文件 夹,将视频放入新建的说话人对应的文件夹中。 3.根据权利要求1所述的真实场景下的多模态数据集的构建方法,其特征在于,步骤2, 对已经分类完成的视频进行批量自动化剪裁,具体如下: 2.1,从视频头部开始逐帧扫描,扫描每一帧的同时使用多任务卷积神经网络MTCNN进 行人脸检测,记录视频中人脸出现的时间; 2.2,从上述2.1中检测到人脸帧出现的时间开始,使用MTCNN和FaceNet检测视频中是 否存在的人脸和人脸是否为画面中的说话人,若是则保留帧画面,否则抛弃该帧并从此处 切割视频; 2.3,对于画面中同时存在多张人脸的情况做如下处理:根据说话人出现在画面中的位 置,对人脸提取的区域进行约束。 4.根据权利要求1所述的真实场景下的多模态数据集的构建方法,其特征在于,步骤3, 制作及整合各模态数据,具体如下: 3.1,根据上述步骤2中满足人脸筛选要求的帧出现的时间节点,运用ffmpeg提取对应 时间的音频,得到声音模态的数据; 3.2,根据上述步骤2中满足人脸筛选要求的帧出现的时间节点,运用MTCNN提取固定大 小的人脸图片,程序设定为224×224,得到视觉模态数据; 3.3,提取视频音轨,使用OpenCV提取连续帧并写入视频文件,并将提取的连续视频帧 与对应时段的音频合并,构成最终视频数据集。 5.如权利要求1所述的一种真实场景下的多模态数据集的构建方法,其特征在于,步骤 2 CN115019358A权利要求书2/2页 1中,所有用于制作数据集的视频均源自于真实授课场景;运用了深度学习中的人脸检测网 络MTCNN、人脸特征提取FaceNet预训练模型和人脸欧氏距离对比,构建人脸库,并在扫描视 频的过程中逐步动态扩充人脸库,对视频进行自动化分类。 6.如权利要求1所述的一种真实场景下的多模态数据集的构建方法,其特征在于,步骤 2中,
Ta的资源

2020110359336低致栓颅内血管编织支架及其处理方法

2020110303186一种钙钛矿量子点聚合物粒子的制备方法

2020110124078基于精准医疗的大数据分析系统及方法

2020109651910 应用近红外谷物分析仪建立油莎豆中粗脂肪含量的检测方法

2020109529321一种铝合金用无氟无氯环保粒状精炼剂及其制备和应用

2020108899336一种新能源商用车总装车间线路布局

2020108620703城市燃气管网多输差协同计算模型及应用方法

2020108207369一种微交联阳离子型聚丙烯酰胺絮凝剂及其制备方法与应用

2020108035131一种基于全站仪的激光雷达外部参数标定方法

2020107682859一种内燃机等离子节油器阴阳极的制备方法

13****40
实名认证
内容提供者


最近下载