语音信号产生的数字模型PPT学习课件-豆柴文库

您所在位置：网站首页 / 语音信号产生的数字模型PPT学习课件.ppt / 文档详情

免费试读已结束，剩余 54 页请下载文档后查看

8 金币

下载文档

/ 59

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

第二章语音信号产生的数字模型SpeechProductionModel§2.1人类的语言器官和语音产生过程Muscleforce喉的生理结构当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。GlottalClosureinstant女声汉语拼音a的时域波形Tp男声汉语拼音声母s的时域波形气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。发音的三种方式－excitation☆F0=1/Tp，基音频率，由声带的质量来决定。☆F0的大小决定了声音的高低，称为音高。☆男性的F0大致分布在：50~250Hz☆女性和儿童的F0大致分布在：100~500Hz鼻端基音频率男声汉语拼音声母s的频谱一种声道形状对应一套共振峰不同人的声道大小不同，共振峰不同同一人，发不同音，共振峰也不同时域波形：幅度－时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。频谱特性：幅度谱图。得出基音周期、共振峰频率及其位置。MuscleforceuG(n)声门脉冲滤波器二、声道模型(共振峰模型)每个传输函数是一个全极点的IIR滤波器，这些极点确定了声管的共振峰。若N取偶数，V(z)一般有N/2对共轭极点，rkexp(±j2FkT)，k=1～N/2。各个wk值分别与语音的共振峰相互对应。N的取值一般为8～12。传输函数三、辐射模型四、完整的语音信号的数字模型模型的特点§2.4语音信号的特性（1）音系简单，在汉语中一个字就是一个音节，由一般为2～3个音素组成，而且具有音素少、音节少。英语中一个单词由若干个音节组成，一般为2～3个，一个音节由若干个音素组成，一般为1～4个。（2）清辅音多，在听感上有清亮、高扬和舒服、柔和的感觉。（3）有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。在汉语中，由元音和辅音构成声母和韵母。韵母：在音节中占主要部分，音节中除了头上的声母以外的部分，由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。a、o、e、i、u、ü、ê单韵母（元音）ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei、üe复韵母an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、üan、ün鼻韵母i表示3个韵母，即韵母、舌尖前韵母和舌尖后韵母。韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式，它们是区别不同韵母的重要参数。声母、韵母和声调是汉语语音的三要素。汉语语音的一个不同于其他语言的是它具有声调（音调）。声调是1个音节在念法上的高低升降的变化，汉语中有4个声调，即阴平（－）、阳平（′）、上声（）、和去声（‵）。声调的变化就是浊音基音周期的变化，为了将调值描写地具体一些，一般采用“五度标记法”，用一条竖线表示声音的高低，从上而下用1、2、3、4、5依次表示低、半低、中、半高、高。四、语音信号的统计特性正常人的听觉系统是极为灵敏的，可听声的范围为20Hz-20kHz。可听声的最小声压级(dB)称为听阈。-5～130dB，对低频和高频是不敏感的，听阈为60dB，在1kHz附近最敏感。如果信号是一个多频率的信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度，从这个意义上讲，耳蜗就像一个频谱分析仪，将复杂信号分解成各种频率分量，这种作用称为人耳的时频分析特性。耳蜗在语音接收过程起着重要的作用。人工耳蜗是一种电子装置，能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官，把声音转换成编码的电信号传入内耳耳蜗，刺激分布在那里的听神经，再由大脑产生听觉。麦克风接收声音，并通过导线将其传至言语处理器；言语处理器对声音进行数字化、滤波编码等处理，并将编码信号经导线传至传输线圈；传输线圈将编码信号通过耦合传至皮下的接收器；接收器对编码信号进行解码；按信号选择一定位置的电极，刺激耳蜗内的听神经纤维，使其产生兴奋，将信号传入大脑，产生听觉。掩蔽阈值同时出现的A声和B声，若原来A声的阈值为50dB,由于另一个频率不同的B声的存在使得A声的阈值提高了68dB,则B声称为掩蔽声，A声称为被掩蔽声。掩蔽量为68dB－50dB＝18dB。掩蔽效应的作用前向掩蔽：若被掩蔽声A出现后，相隔(0.05s,2s)之内出现了掩蔽声B，对A起掩蔽作用，因为A声尚未被人所反应接收而强大的B声已来临。语谱图(Spectrogram)Ban