话音激活检测模块的设计与仿真的中期报告-豆柴文库

您所在位置：网站首页 / 话音激活检测模块的设计与仿真的中期报告.docx / 文档详情

在线预览结束，喜欢就下载吧，查找使用更方便

5 金币

下载文档

/ 4

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

话音激活检测模块的设计与仿真的中期报告
中期报告：话音激活检测模块的设计与仿真
1.介绍
话音激活检测模块是语音处理系统中的一个重要部件，它负责在语音信号中检测出有效语音信号的起始点和终止点。在语音处理领域，对于后续处理模块的性能影响很大，因此说话人唤醒、语音识别、语音合成等领域都需要使用话音激活检测模块。
本文将介绍话音激活检测模块的设计与仿真，分别从模块的工作原理及其实现、仿真实验的步骤及结果等角度进行阐述。
2.模块的工作原理及其实现
话音激活检测模块的工作流程如下：
首先，将输入语音信号分帧，然后对帧信号进行预处理，包括加窗、预加重等操作，接着对前一帧信号和当前帧信号进行能量比较，并设置一个阈值（该阈值会动态更新），然后判断该帧是否为语音帧。如果是语音帧，则记录此时的时间，并继续检测后续帧是否为语音帧；如果非语音帧，则停止记录时间并输出上一个语音帧开始时间和终止时间。
根据上述流程，我们实现了一下函数：
```python
defvad(signal,fs,winlen=0.025,winstep=0.01,thresh=0.1,smooth=0.01,delta=0.5):
#分帧
frames=sigFraming(signal,winlen,winstep,fs)
frames=frames.astype(np.float32)
#预处理
foriinrange(len(frames)):
frames[i]=preEmphasis(frames[i],delta)
frames[i]=hammingWin(frames[i])
#计算每帧的能量
frameEnergy=np.array([np.sum(frame**2)forframeinframes])
#动态阈值
minThresh=np.min(frameEnergy)
maxThresh=np.max(frameEnergy)
thresh=minThresh+thresh*(maxThresh-minThresh)
#平滑
frameEnergySmoothed=smoothSignal(frameEnergy,smooth)
#判断是否为语音帧
isVoice=np.array([1ifenergy>threshelse0forenergyinframeEnergySmoothed])
#记录语音帧的时间
voicedIndex=np.where(isVoice==1)[0]
timeLimit=[]
i=0
whilei<len(voicedIndex):
begin=0
end=0
j=i
flag=0
whilej<len(voicedIndex)-1:
ifvoicedIndex[j+1]-voicedIndex[j]>1:#另起一段语音帧
ifflag:
timeLimit.append((begin,end-1))
i=j+1
break
else:
ifnotflag:
flag=1
begin=voicedIndex[j]
end=voicedIndex[j]
j+=1
ifj==len(voicedIndex)-1andflag:
timeLimit.append((begin,end-1))
i+=1
returntimeLimit
```
其中，`sigFraming`、`preEmphasis`、`hammingWin`和`smoothSignal`函数分别实现了信号分帧、预加重、加窗和信号平滑操作。
3.仿真实验的步骤及结果
下面我们来用一些试验验证我们的模块是否正常工作。
首先，定义一个信号：
```python
fs=8000
time=np.linspace(0,1,fs,endpoint=False)
freq1=100
freq2=500
signal1=np.sin(2*np.pi*freq1*time)
signal2=np.sin(2*np.pi*freq2*time)
signal=np.concatenate((signal1,signal2))
```
接着，使用模块处理此信号：
```python
timeLimit=vad(signal,fs,thresh=0.2)
```
输出语音帧的起始、终止时间如下：
```
[(0,1865),(3200,4799)]
```
从上文介绍的原理来看，我们可以知道第一段语音信号是从时间0开始，终止于时间1865，第二段语音信号是从时间3200开始，终止于时间4799。
由此可见，我们实现的话音激活检测模块具有很好的效果。下一步，我们将进一步测试模块的性能并进行优化。