基于HHT和OSF的复杂环境语音端点检测-豆柴文库

您所在位置：网站首页 / 基于HHT和OSF的复杂环境语音端点检测.docx / 文档详情

在线预览结束，喜欢就下载吧，查找使用更方便

5 金币

下载文档

/ 2

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

基于HHT和OSF的复杂环境语音端点检测
摘要
语音端点检测作为语音信号处理的重要环节之一，对于语音识别、语音转换等应用具有重要作用。本文基于经验模态分解(Hilbert-HuangTransform,HHT)和自适应方差阈值(OnlineSingularSpectrumFilter,OSF)，提出了一种新的复杂环境语音端点检测算法。该算法首先利用HHT分解出信号的本质模态函数(EMD)，然后在每个EMD成分上通过OSF方法选取合适的阈值进行端点检测。实验结果表明，该算法在比较复杂的环境下端点检测效果较好，与现有的算法相比具有更好的鲁棒性和准确性。
关键词：语音端点检测；经验模态分解；自适应方差阈值；复杂环境
Introduction
在现实生活中，语音信号常常受到各种干扰，如噪声、回声、多说话人等。因此，语音信号的端点检测是语音处理的重要环节之一。语音端点检测是指确定语音信号开始和结束的时间点的过程。端点检测对于语音识别、语音转换等应用有重要作用。目前，已经有很多端点检测算法被提出，但是在复杂环境下，端点检测的准确性和鲁棒性仍是一个挑战。
本文提出了一种基于HHT和OSF的复杂环境语音端点检测算法。HHT是一种用于信号分解的新方法，它可以将信号分解为一组本质模态函数(EMD)和一个残余项。该方法对于非线性和非平稳信号有很好的适应性。OSF是一种自适应方差阈值方法，它根据局部方差来动态确定端点检测的门限值。
方法
本文提出的算法主要包括两个步骤：HHT分解和OSF端点检测。
HHT分解
HHT分解是通过将信号分解为一组EMD成分和一个残余项来实现的，每个EMD成分可以看作是一组具有不同频率和振幅的简单振动模态。这个过程的详细步骤如下：
1.对信号进行sifting过程。sifting过程是通过将信号进行局部极大极小值的配对来构建上/下包络线的。
2.如果上/下包络线是单调的，这个模态就被称为内禀模态。如果存在另一个局部极值点，那么这个模态将会被分解为不同的两个模态，直到内禀模态为止。
3.重复步骤1和2，直到产生的残余项不再有局部极值点为止。在这个过程中，信号被分解为一组EMD成分和一个残余项。
OSF端点检测
OSF是一种自适应阈值方法，它采用局部方差来动态调整门限值，并且不需要预先确定门限。在语音信号中，因为端点处的方差通常较大，所以可以通过选取合适的阈值来检测端点。具体而言，OSF方法主要包含以下步骤：
1.计算数据的一阶差分和二阶差分。一阶差分用于捕获语音信号中的短时明显变化，而二阶差分则用于提取较长时间上的变化。
2.计算每个样本点和前k个样本点的平均值，并计算二阶差分的局部方差。
3.计算门限值。门限值由数据的平均值加上一个比例因子乘以局部方差计算得到。
4.通过比较每个样本点和门限值来确定信号的开始和结束点。
实验
为了评估本文提出的算法的性能，我们使用了两个公共的语音数据集：TIMIT和AURORA2。TIMIT是一个室内语音数据集，包含6300个说话人的460句话。AURORA2是一个包含干净语音、车内语音和街头语音等复杂环境语音的数据集。
为了比较本文算法的性能，我们选取了三种不同的端点检测算法：基于短时能量和过零率(Short-TimeEnergy（STE）,ZeroCrossingRate（ZCR）)的算法、基于能量倒谱分析并结合高斯混合模型(GMM)的算法和基于HMM的模型。
实验结果表明，本文提出的算法在比较复杂的环境下端点检测效果较好，与现有的算法相比具有更好的鲁棒性和准确性。具体而言，在TIMIT数据集中，本文算法和基于GMM的算法具有相似的性能，但在AURORA2数据集中，本文算法具有更好的性能。