摘要:语音作为人的基本属性之一,是实现人与人交流最直接的方式,并且由于每个人发音器官的先天差异以及后天行为所形成的种种差异造就了强烈的个人色彩,从而语音的独特性使之成为辨别说话人身份的手段,即说话人识别技术。与其他识别技术相比,说话人识别技术更加方便与经济,因此说话人识别有着更加广泛的应用前景,可以应用在需要进行身份确认的各种安全领域,例如公安刑侦系统中的电话勒索与绑架等案件的嫌疑人身份确认,银行、证券系统中用户身份识别等。
本文所研究的说话人识别系统采用的是属于与文本有关的说话人确认系统。本文采用语音预处理技术先对说话人语音进行处理,同时利用语音端点检测(Vad)确定说话人语音的起点与终点,然后采用Mel频率倒谱系数(MFCC)的方法对语音信号进行特征提取,提取后的特征矢量序列利用动态时间规整(DTW)模型进行时间规整,并与模板语音进行匹配距离计算,继而将距离折算为语音相似度。本系统默认其相似度达到90%以上,则认为确认匹配成功,从而确定说话人所声称的身份是否准确,最后通过MATLAB仿真以及其GUI界面进行识别结果的显示。本系统在实验中,忽略其他的影响因素,误差相对较小,能够对说话人测试语音进行准确识别确认。
关键词:说话人识别;预处理;语音端点检测;Mel频率倒谱系数;动态时间规整模型
目录
摘要
Abstract
1 绪论-1
1.1 说话人识别研究背景及意义-1
1.2 说话人识别基本问题及现状-1
1.3 本文的内容及安排-2
2 说话人识别技术概述-3
2.1 说话人识别的基本原理-3
2.2 说话人识别的主要方法-3
3 说话人识别算法-5
3.1 预处理-5
3.1.1 采样-5
3.1.2 预加重-5
3.1.3 加窗分帧-6
3.2 语音端点检测-6
3.2.1 短时平均能量-6
3.2.2 短时平均过零率-7
3.3 特征提取及识别模型-8
3.3.1 Mel频率倒谱系数-8
3.3.2 动态时间规整(DTW)模型-9
4 说话人识别系统-10
4.1 说话人识别系统的结构设计-10
4.2 说话人识别系统实现-11
4.2.1 系统录音设置-11
4.2.2 声音源添加与存储显示-11
4.2.3 语音端点检测-12
4.2.4 Mel频率倒谱系数-13
4.2.5 DTW模型匹配及结果-13
4.3 系统程序运行结果-14
结 论-16
参 考 文 献-17
附录A 程序-18
致 谢-23