基于语音混合特征说话人识别的研究

英文题名：Research of Speaker Recognition Based on Combining Speaker Characteristic Computer Software & Theory
作者：崔宣
论文级别：硕士
学科专业名称：计算机软件与理论
中文关键词：说话人识别 ; 特征参数 ; 美尔频率倒谱系数 ; 线性预测倒谱系数 ; 矢量量化
英文关键词：Speaker Recognition ; Characteristic Parameter ; MFFCC ; LPCC ; Vector Quantization
学位年度：2008
导师：潘世永
学科代码：081202
学位授予单位：西华大学
论文提交日期：2008-03-01

摘要

说话人识别是指通过说话人语音信号的分析和特征提取,从而确定说话人是否在所记录的说话人集合中,进而确定说话人是谁的过程。它在许多领域内有良好的应用前景。
     目前在说话人识别中,要提高识别率有两个重要的问题需要解决:一是如何选取能够有效表征说话人特征的可靠参数;二是如何选取合适的识别算法。本文主要是对特征参数的选取进行了初步的探讨,做了如下几方面工作:
     1.在特征提取方面,本文中分析了当前最常用的两种倒谱特征参数:美尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。并对其进行了改进,一方面是采用二次提取的方法,将MFCC和LPCC与其各自对应的一阶差分组合在一起形成新的特征参数。另一方面是本文还提出了将美尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)两个基于不同模型的特征参数组合在一起形成新的特征参数,实验的结果证明了这两种方法与传统的使用单一特征参数进行识别相比都能有效的提高实验系统的识别率。此外,还尝试着在预处理部分加入基于时域特征的端点检测,使用到了短时能量参数和短时过零率相组合,然后在特征提取部分,提取20阶MFCC作为特征参数来进行识别,但实验的结果没有达到理想效果。
     2.在识别算法方面,本文对矢量量化的方法进行了研究,并用matlab语言实现了一个有效的说话人辨认识别系统。
The speaker recognition is the processing of automatically recognition whether the speaker in the speakers which records gathers, then determined who the speaker is, by analyzing the speaker's pronunciation signals and picking up the speaker's characteristic. Now, it has well application prospects in many fields.
     Currently in the field of speaker recognition, there are two important questions need to solve for the enhancement of recognition rate. For one hand is how to select more effective and reliable speaker characteristic, For anther hand is how to select the best recognition methods. This article mainly has made the discussion in the fist question, and made following aspects improvement and research.
     Firstly, we propose that choose MFCC ,LPCC and MFCC and LPCC's difference to be the new speech characteristic parameters .Using VQ to recognize text-inpendent speech ,we have developed a speaker identification in this paper ; We do experiment, mixing MFCC and LPCC together ,to make a new characteristic parameter ,it is prove that ,it can effectively improve the rate of the system recognition ; We also make a test with the extreme point detection before pretreatment and we choose the MFCC as characteristic ,but it's a pity the result is failure.
     Secondly, do some research of the VQ method, and apply the speakeridentification experiment in this paper

引文

[1]王丙锡,屈丹,实用语音识别基础[M],国防工业出版社.2005.1 p2-p7,p264-p271
    [2]韩纪庆,张磊,郑铁染,语音信号处理[M],清华大学出版社,(004)2-0,48-1,192-95
    [3]王蕴红,谭铁牛,现代身份鉴别新技术[M],生物特征识别技术,中国基础科学,(2000)9,5-10
    [4]O'Shaughnessy,D.Speaker,A coustic Speech and Signal,IEEE Processing Magazine,(1986)Volume 4.Page 4-17.
    [5]B.S.Atal,Automatic Speaker Recognitionbased on pitchcontours,J.Acoust.Soc.Am.(1972)Volume 52,Page 1687-1697.
    [6]Joseph P.Campbell,JR.,Speaker Recognition,A Tutorial.Proceeding of the IEEE(1997)Volume 85,Page 1437-1462.
    [7]赵力,语音信号处理[M],第一版,机械工业出版社,(2003)4,242-243。
    [8]Rabiner.L.R,Schafer,R.W.Digital,Processing of Speech Signals[M],Prentice Inc(1978),Page 302-347.
    [9]谷志新,王述洋,田仲富,声纹识别技术中特征语音参数选取的相关问题[[J],研究与技术,(2005),第18卷(第2期)33-36
    [10]马俊,声纹识别技术研究[D],哈尔滨工程大学工学硕士学位论文,(2004)1
    [11]王让定,柴佩琪,语音倒谱特征的研究[J],计算机工程,(2003)13,31-33
    [12]马志又,杨莹春,吴朝晖,二次特征提取及其在说话人识别中的应用[J],电路与系统学报,(2003.4)8,130-133
    [13]尉洪,周浩,杨鉴,基于矢量量化的组合参数法说话人识别[J],云南大学学报,(2002)2,96-p100
    [14]张炜,胡起秀,吴文虎,距离加权矢量量化文本无关的说话人识别[J],清华大学学报,(1997)3,20-23
    [15]张卫清,语音识别算法的研究[D],南京理工大学学位论文,(2004)2,127-128
    [16]周星,王成友,孟晨,魏保华.基于矢量量化的说话人识别研究[D],计机工程与设计,(2002)2 45-67
    [17]李鸣华,一种基于听觉模型的语音特征提取方法[J],计算机与现代化,(2000)3,13-16
    [18]侯遵泽,声纹鉴别及其应用[J],武警学院学报,(2002)6,87-89
    [19]蔡莲红,黄德智,蔡锐,现代语音技术基础与应用[M],北京,清华大学出版社,(2000)3,123-145
    [20]余华,王治平,赵力,语音信号中情感特征的分析和识别[J],语音技术,(2002)30-38
    [21]王吉林,基于VQ的说话人识别系统的实现[D],天津职业大学学报,(2004)6,50-56
    [22]王炳锡,张白遇,说话人辨认中有效参数的研究[J],应用声学,(1992)2,123-127
    [23]易克初,田斌,付强.语音信号处理[M],第一版.北京,国防工业出版社,(2000),22-30
    [24]马俊,声纹识别技术研究[D],哈尔滨工程大学工学硕士学位论文,(2004)1,34-51
    [25]郭春霞,基于MFCC的说话人识别系统研究[D],西安电子科技大学,(2006)1,23-45
    [26]张华,VQ声纹识别算法研究[D],西安电子科技大学,(2006)1,43-50
    [27]杨礼特,说话人识别系统的研究与实现[D],西安电子科技大,(2006)1,56-61
    [28]汪峥,连翰,王建军,说话人识别中特征参数提取的一种新方法[J],复旦学报(自然科学版),(2005)4,78-82
    [29]H.Torres,H.Rufiner,Automatic.Speaker Identifacation by Means of Mel Cepstrum,Wavelets and Wavelet Packets,Processing of the 22th Annual EMBSInternational Conference,Chicago,July(2000),Page 978-981
    [30]Jalal R.Karam,William J.Phillips,William Robertson,New Wavelet Packet Model For Automatic Speech Recognition System,IEEE Transaction on speech and Audio Processing,(1998.3)5,page 80-83.
    [31]Siew Chan Woo,Chee Peng Lira,Osman.R,Developmemt of a Speaker Recognition System Using Wavelets and Artificial Neural Network Intelligent Multimedia,Video and Speech Processing May(2001),Page 4-13-416.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700