一种音频分类方法及装置-豆柴文库

您所在位置：网站首页 / 一种音频分类方法及装置.pdf / 文档详情

免费试读已结束，剩余 12 页请下载文档后查看

10 金币

下载文档

/ 17

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105788592A(43)申请公布日2016.07.20(21)申请号201610279778.X(22)申请日2016.04.28(71)申请人乐视控股（北京）有限公司地址100025北京市朝阳区姚家园路105号3号楼10层1102申请人乐视致新电子科技（天津）有限公司(72)发明人张利(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人苏培华(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/16(2006.01)权利要求书2页说明书11页附图3页(54)发明名称一种音频分类方法及装置(57)摘要本发明实施例提供一种音频分类方法及装置。其中，方法包括：根据收集的训练数据，基于深度神经网络训练得到音频分类模型；对音频数据提取音频特征；将所述音频特征输入所述音频分类模型，输出得到所述音频数据的分类结果；所述分类结果包括：录音音频、语音搜歌音频和哼唱音频。本发明实施例可以解决现有技术中对哼唱音频和语音搜歌音频之间的分类正确率较低的问题，提高音频分类的准确率，进而可以提高搜索歌曲的准确率。CN105788592ACN105788592A权利要求书1/2页1.一种音频分类方法，其特征在于，所述方法包括：根据收集的训练数据，基于深度神经网络训练得到音频分类模型；对音频数据提取音频特征；将所述音频特征输入所述音频分类模型，输出得到所述音频数据的分类结果；所述分类结果包括：录音音频、语音搜歌音频和哼唱音频。2.根据权利要求1所述的方法，其特征在于，所述音频分类模型包括至少一个分类子模型，且所述分类子模型与所述分类结果具有对应关系；所述将所述音频特征输入所述音频分类模型，输出得到所述音频数据的分类结果的步骤，包括：将所述音频特征输入所述音频分类模型；根据所述分类子模型计算得到所述音频特征的概率值；将概率值最大的分类子模型对应的分类结果作为所述音频数据的分类结果进行输出。3.根据权利要求2所述的方法，其特征在于，所述将概率值最大的分类子模型对应的分类结果作为所述音频数据的分类结果进行输出的步骤包括：在所述音频数据的有效时长大于预设的有效时长门限时，将概率值最大的分类子模型对应的分类结果作为所述音频数据的分类结果进行输出；在所述音频数据对应的有效时长小于或等于预设的有效时长门限时，执行以下步骤：若哼唱音频对应的后验概率值大于预设的哼唱音频门限，则确定所述音频数据为哼唱音频，若否，则确定所述音频数据为录音音频或者语音搜歌音频。4.根据权利要求1所述的方法，其特征在于，所述根据收集的训练数据，基于深度神经网络训练得到音频分类模型的步骤，包括：收集训练数据；其中，所述训练数据包括：录音音频、语音搜歌音频和哼唱音频；对所述训练数据提取音频特征；根据提取的音频特征，基于深度神经网络训练得到音频分类模型。5.根据权利要求4所述的方法，其特征在于，所述训练数据还包括：噪声音频和静音音频。6.根据权利要求1至5任一所述的方法，其特征在于，所述音频特征包括：梅尔倒谱系数特征和基频特征；通过如下步骤提取所述音频特征：提取所述音频数据/训练数据对应的梅尔倒谱系数特征和基频特征；对所述梅尔倒谱系数特征进行一阶差分和二阶差分计算，得到多维梅尔倒谱系数特征；对所述基频特征进行一阶差分和二阶差分计算，得到多维基频特征；依据所述多维梅尔倒谱系数特征和多维基频特征，确定所述音频数据/训练数据对应的音频特征。7.一种音频分类装置，其特征在于，包括：训练模块，用于根据收集的训练数据，基于深度神经网络训练得到音频分类模型；第一提取模块，用于对音频数据提取音频特征；输出模块，用于将所述音频特征输入所述音频分类模型，输出得到所述音频数据的分类结果；所述分类结果包括：录音音频、语音搜歌音频和哼唱音频。8.根据权利要求7所述的装置，其特征在于，所述音频分类模型包括至少一个分类子模2CN105788592A权利要求书2/2页型，且所述分类子模型与所述分类结果具有对应关系；所述输出模块，包括:输入子模块，用于将所述音频特征输入所述音频分类模型；计算子模块，用于根据所述分类子模型计算得到所述音频特征的概率值；输出子模块，用于将概率值最大的分类子模型对应的分类结果作为所述音频数据的分类结果进行输出。9.根据权利要求8所述的装置，其特征在于，所述输出子模块，具体用于在所述音频数据的有效时长大于预设的有效时长门限时，将概率值最大的分类子模型对应的分类结果作为所述音频数据的分类结果进行输出；在所述音频数据对应的有效时长小于或等于预设的有效时长门限时，执行以下处理：若哼唱音频对应的后验概率值大于预设的哼唱音频门限，则确定所述音频数据为哼唱音频，若否，则确定所述