空洞因果卷积生成对抗网络端到端骨导语音盲增强方法.pdf 立即下载
2023-06-27
约1.2万字
约12页
0
569KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

空洞因果卷积生成对抗网络端到端骨导语音盲增强方法.pdf

201910400246.pdf

预览

免费试读已结束,剩余 7 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110136731A(43)申请公布日2019.08.16(21)申请号201910400246.0(22)申请日2019.05.13(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人魏建国胡宏周何宇清路文焕(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人刘国威(51)Int.Cl.G10L21/02(2013.01)G10L25/30(2013.01)权利要求书2页说明书7页附图2页(54)发明名称空洞因果卷积生成对抗网络端到端骨导语音盲增强方法(57)摘要本发明涉及人工智能、医疗康复器械领域,为为提出端到端骨导语音增强方法,解决骨导语音高频成分缺失,听觉感观不佳及强噪声背景下的通讯等问题,本发明,空洞因果卷积生成对抗网络端到端骨导语音盲增强方法,以骨导原始音频采样点作为输入数据,纯净气导原始音频作为训练的输出目标,将骨导语音输入训练好的空洞因果卷积生成对抗增强网络,所述空洞因果卷积生成对抗网络包括生成器和判别器,生成器采用空洞因果卷积,输出增强后的样本;判别器则是输入原始音频数据和生成器生成好的增强后语音样本,利用判别器中的卷积层提取深层次非线性特征,从而进行样本的深层相似性判断。本发明主要应用于骨导语音增强设备的设计制造场合。CN110136731ACN110136731A权利要求书1/2页1.一种空洞因果卷积生成对抗网络端到端骨导语音盲增强方法,其特征是,以骨导原始音频采样点作为输入数据,纯净气导BC(BoneConduction)原始音频作为训练的输出目标,构建并训练空洞因果卷积生成对抗增强网络;然后将骨导语音输入训练好的空洞因果卷积生成对抗增强网络,由该网络输出增强后的音频波形;所述空洞因果卷积生成对抗网络包括生成器和判别器,生成器采用空洞因果卷积,对网络的输入数据进行深层意义的特征提取和特征变换,输出增强后的样本;判别器则是输入原始音频数据和生成器生成好的增强后语音样本,利用判别器中的卷积层提取深层次非线性特征,从而进行样本的深层相似性判断。2.如权利要求1所述的空洞因果卷积生成对抗网络端到端骨导语音盲增强方法,其特征是,构建并训练空洞因果卷积生成对抗增强网络具体步骤是,将纯净语音样本和骨导语音样本输入判别器,对判别器进行真实数据判断训练;生成器以骨导原始语音采样点作为生成器训练输入数据,生成器生成增强后的语音样本,将生成器生成的增强样本和原始骨导语音样本作为判别器输入,进行增强数据判断,将判别误差反馈给生成器,生成器通过训练减小误差,提高增强语音质量。判别器和生成器进行反复对抗训练,最后得到最优骨导语音增强网络模型,并存储模型参数。3.如权利要求1所述的空洞因果卷积生成对抗网络端到端骨导语音盲增强方法,其特征是,还包括数据预处理步骤:将骨导原始语音采样点和纯净气导语音采样点进行切片,根据生成对抗网络深度确定适当的数据输入与输出的因果关系,形成网络训练样本,进行骨导语音采样点数据序列到纯净语音采样点数据序列的对齐操作;在训练阶段,由于标定真实数据x的所有时间步骤都是已知的,因此所有时间步骤的条件概率预测并行进行;在推断阶段,预测结果是串行的:每一个预测出的样本都被传回网络用于预测下一个样本。4.如权利要求1所述的空洞因果卷积生成对抗网络端到端骨导语音盲增强方法,其特征是,具体步骤细化如下:步骤一:获取骨导和气导语音数据以生成训练集和测试集,对气导和骨导原始语音信号进行分段处理,并进行数据预处理以满足网络输入需求,具体地,将训练集和测试集的语音数据统一转化为.wav形式的音频文件存储,然后将音频分段成输入样本长度和输出样本长度序列,每500毫秒提取大约1秒语音滑动窗口的波形块;测试时,在测试的整个过程中滑动窗口,没有重叠,并在流的末尾将结果连在一起;在训练和测试中,对所有输入样本应用系数为0.95的高频预加重滤波器,在测试过程中,输出也相应地进行去加重处理;L滤波器函数定义如下:H(z)=1-αz-1步骤二:对数据进行mu-low压缩编码,将原本分类函数softmax层的65536个概率输出量化到256个可能值,并将一维音频数据样本进行独热One_Hot编码,编码后变换为256维音频数据,mu_low编码和解码函数如下:2CN110136731A权利要求书2/2页其中μ=255,x是输入信号,y是经过编码的输出信号,sgn(x)是sign函数,编码函数自变量范围是-1到1;步骤三:生成对抗网络的对抗训练:定义生成对抗网络GAN的网络结构,生成器G采用全卷积网络结构,没有全连接层,采用残差跳步连接,作为语音增强框架;判别器则是用于分类的卷积神经网络CNN,用于指导改进生成器模型;生成器模型由强化
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

空洞因果卷积生成对抗网络端到端骨导语音盲增强方法

文档大小:569KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用