噪声环境下的鲁棒性语音端点检测算法研究

英文题名：A Study on Robust Speech Endpoint Detection Algorithms in Noisy Environment
作者：于迎霞
论文级别：硕士
学科专业名称：通信与信息系统
中文关键词：语音识别 ; 端点检测 ; 鲁棒性 ; LPC美尔倒谱系数 ; 语音学 ; 短时能零比 ; 短时谱幅 ; 自适应门限
英文关键词：speech recognition (SR) ; endpoint detection ; voice activity detection (VAD) ; robustness ; Lpc Mel cepstral coefficient(LPCCMCC) ; phonetic ; Short-time EZQ(energy-zero- quotient) ; short-time spectral amplitude ; adaptive threshold.
学位年度：2004
导师：古丽拉·阿东别克
学科代码：081001
学位授予单位：新疆大学

摘要

起步于上世纪五十年代的语音识别技术，经历了几十年的研究历程，如今逐渐走出实验室，并慢慢趋向于大规模应用。然而，实际环境中并没有完全纯净的语音信号，往往都伴有噪声或其他干扰(Lombard效应及传输通道变化引起的畸变)，实验环境和实际环境存在失配现象，导致语音识别系统在实用时性能急剧下降。而端点检测，作为语音识别系统预处理阶段遇到的第一个关键技术，其准确性在某种程度上直接决定了整个语音识别系统的成败。语音识别系统的处理对象是有效语音信号，即排除了纯噪声段的语音信号段，这就需要事先从输入信号中找到语音部分的起止点，确定有效语音段的边界，端点检测的目的就是从包含语音的一段信号中确定出语音的起点以及终点，又称语音活动检测(VAD,Voice Activity Detection)。端点检测不仅在语音识别中显得重要，在自适应语音增强和语音编码中也同样重要。
    传统的端点检测算法都是针对实验室安静环境的，近几年人们才开始研究噪声环境下语音的端点检测，目前随着自动语音识别技术在车载电话通信，免提式语音识别等方面的应用逐渐广泛，研究背景噪声下的鲁棒性(Robustness)语音端点检测算法显得尤为重要。
    本文首先介绍了近十年国内外学者提出的一些端点检测算法，并分析了其中几种端点检测算法所选用的特征，给出仿真结果和一些改进。随后，提出了噪声环境下的两种语音端点检测新方法。算法一: 在LPC倒谱进行端点检测的基础上提出了基于LPC美尔倒谱（LPCCMCC）的端点检测算法。该算法中对LPC倒谱系数进一步按符合人耳听觉特性的(MEL)尺度进行非线性变换，求得LPC美尔倒谱系数(LPCCMCC),并以此作为端点检测的特征，该特征既考虑了声道特性，又符合人耳听觉，仿真实验结果表明了它的优越性[文章已被录用]。算法二:针对汉语语音的特点，提出了基于汉语语音学知识的两级鲁棒性端点检测算法，选用时域短时能零比和频域短时浊音频带（200-1000Hz）谱幅作为特征，采取自适应门限，在常见噪声环境（交通，汽车，背景说话人噪声Babble,白噪声等）下效果较好，算法实现简单，环境适应性较强[文章部分内容被录用]。文章最后对近两年出现的一些研究新方向作了简单介绍和展望，指出了端点检测的发展前景。
While automatic speech recognition (ASR) is applied in adverse acoustic environment, the imparity between the experimental and actual condition degrades the capability of ASR system. Endpoint detection is the first crucial technology, whose accuracy determines the success of the whole SR system to some extent. The detection of the presence of speech embedded in various types of non-speech events and background noise is called endpoint detection, speech detection or voice activity detection(VAD).The need for speech detection also occurs in adaptive speech coding and speech enhancement.
    Conventional approaches to VAD are put forward according to the silent lab, while new VAD methods in noisy surroundings come out until recent two years. In order to meet the need of ASR’s widely use, it is very important to study robust VAD means.
    In this paper, many VAD algorithms are presented firstly, which include both internal and external methods during the past 10 years. With simulation result and some improvements shown, several VAD features are analyzed too. Then, two new VAD approaches in noisy surroundings are proposed. The first one: a method based on LPCCMCC for endpoint detection of noisy speech signal. It takes Lpc Mel cepstral (LPCCMCC) as feature parameter instead of normal cepstral feature; LPCCMCC considers both auditory and vocal tract character. The experiments show good detection capability with a small SNR can be obtained. The second one: a robust two-stage method based on Chinese phonetic knowledge. Short-time EZQ (energy- zero- quotient) and short-time spectra amplitude (200-1000HZ) are adopted as detection features; adaptive threshold and combination of Chinese phonetic knowledge are also introduced to the detection process. The experiments show better robust capability and high efficiency can be obtained in common noisy environments.
    At the end of the article, some new study fields within the past two years are come up with and developing perspective of VAD is referred to.

引文

1. 陈永彬,王仁华.语言信号处理.合肥:中国科技大学出版社,1990.
    2. 陈尚勤,罗承烈,杨雪.近代语音识别.成都:电子科技大学出版社,1991
    3. 胡光锐. 语音处理与识别.上海:上海科学技术文献出版社,1994
    4. 杨行峻, 迟惠生.语音信号数字处理.北京:电子工业出版社, 1995
    5. L.R .语音识别基本原理(影印版).北京:清华大学出版社,1999
    6. 姚天任.数字语音处理. 武汉:华中理工大学出版社, 1999
    7. 朱民雄,闻新.计算机语音技术(修订版).北京:北京航空航天大学出版社,2002
    8. 胡航.语音信号处理.哈尔滨:哈工大出版社,2002
    9. 赵力.语音信号处理. 北京:北京机械工业出版社, 2003
    10. 蔡莲红,黄德智.现代语音技术基础与应用.北京:清华大学出版社,2003
    11. 吴宗济,林茂灿.实验语音学概要.北京:高等教育出版社, 1989
    12. 吴宗济.汉语普通话单音节语图册.北京:中国社会科学出版社, 1986
    13. 吴宗济.现代汉语语音概要.北京:华语教学出版社, 1992
    14. 林焘,王理嘉.北京语音实验录.北京:北京大学出版社,1985
    15. 林焘,王理嘉.语音学教程.北京: 北京大学出版, 1992
    16. 郭锦桴.综合语音学. 福州:福建人民出版社, 1993
    17. 石锋,廖荣蓉.语音从稿.北京:北京语言学院出版社, 1994
    18. 桂诗春.心理语言学.上海:上海外语教育出版社, 2000
    19. 陈建民.汉语口语. 北京:北京出版社, 1984
    20. 沈政,林庶芝.脑模拟与神经计算机. 北京:北京大学出版社,1992
    21. 黄伯荣,廖序东.现代汉语.兰州:甘肃人民出版社, 1988.
    22. 刘伶,黄智显,陈秀珠.语言学概要.北京:北京师范大学出版社, 1984
    23. 桂灿昆.美国英语应用语音学. 上海:上海外语教育出版社. 1985,:302-313
    24. 美J.D 马克尔,A.H 格雷,乔（娄乃英等译）.语音信号线性预测.北京:中国铁道出版社, 1987
    25. 李新维.语音特征的鲁棒性研究. 北京大学硕士学位论文,2000

    26. 薛德黔. 交互式自然口语语音识别关键技术.计算机应用,2002,22(7):45-47
    27. 吴元清.抗噪语音识别的研究-基于听觉量化谱的语音识别.清华大学工学博士论文, 1996,:5-61
    28. 韩兵,贾忠.噪声环境下鲁棒性语音特征提取的新方法.航空计算技术,1995,(2):54-59
    29. 杜利民.语音识别中的鲁棒性问题.第六届人机语音通讯学术会议,2001,:k73-k77
    30. 李国强.语音识别的自适应算法研究. 中科院博士学位论文,1999,:5-15
    31. 杨大利,徐明星,吴文虎等.噪声下的语音识别研究概述.第五届全国现代语音学学术会议, 2001
    32. 韩纪庆.噪声环境下顽健的语音识别方法. 哈尔滨工业大学博士论文,1998,:1-12
    33. 韩纪庆.环境噪声对语音分布和语音识别性能影响的人工模拟分析.微处理机,2000,(1):35-40
    34. 韦晓东.语音识别系统的环境适应技术研究.上海交大博士论文,1999,:1-41
    35. 岳子琪.3G中语音端点检测算法及其实现研究.西安电子科技大学硕士学位论文,2002
    36. 张永鑫. 基于RBF神经网络的提示文本话者识别. 上海大学硕士学位论文, 2001
    37. 袁波涛. 低信噪比下的语音端点检测与增强.华南理工大学硕士学位论文,2001
    38. 姚文冰.基于高阶累积量的抗噪语音识别. 华中科技大学博士学位论文,　2001
    39. 孙海.汉语连续语音端点检测技术的研究.西安电子科技大学硕士学位论文,2002
    40. 雷静.语音识别技术的研究及基本实现 .武汉理工大学硕士学位论文,2002
    41. 谌璟.基于TMS320VC5402的语音检测器. 华中科技大学硕士学位论文,2002
    42. 陈景东,徐波,黄泰翼.一种基于迟滞编码的自动语音端点检测方法. 电路与系统学报,1996,1(4):29-32
    43. 寻纯阳,杨红.一种新的鉴别汉语语音信号起止点的有效算法.湖南大学学报,1996,23(2):95-99
    44. 杨伟东,陈永彬. 用于话者识别的一种自适应端点检测方法.第四届全国人机语音通讯学术会议论文集,1996,:190-195
    45. 程启明.语音信号端点检测的实验研究.声学与电子工程,1997,(3): 29-31
    46. 杨崇林,李雪耀,孙羽.强噪声背景下汉语语音端点检测和音节分割.哈尔滨工程大学学报 ,1997,18(5):28-32

    47. 朱　杰,韦晓东.噪声环境中基于HMM模型的语音信号端点检测方法.上海交通大学学报,1998,32(10):14-16
    48. 张杰,张焱,黄志同.无端点检测汉语识别算法的实现及改进——动态时间规整和隐马尔可夫统一模型的应用,声学技术,1998,:181-185
    49. 张　红,马磊,李治.半波差分频谱对于汉语声母和韵母的区分特性.西南交通大学报, 1999,34(4):466-470
    50.全慧敏,寻纯阳.汉语连续语音识别的前置处理.湖南大学学报, 1998,25(5):106-108
    51. 李桦,安钢,樊新海.短时能频值在语音端点检测中的应用.测试技术学报,1999,13(1): 21-27
    52. 高　慧,周笃强,黄端生.噪声对说话人语音的影响. 航天医学与医学工程, 1999,12(1):72-75
    53. 陈斐利,朱　杰.一种新的基于自相关相似距离的语音信号端点检测方法.上海交通大学学报,1999,33(9):1097-1099
    54. 沈亚强,冯根良.基于时间序列短时分形维数的噪声语音信号端点检测和滤波.浙江师大学报(自然科学版),1999,22(1):16-21
    55. 李雪耀,林娟,杨崇林.船舰指挥舱室强噪声环境下语音识别.船舶工程, 1999,(2):50-53
    56. 胡光锐,韦晓东.基于倒谱特征的带噪语音端点检测.电子学报,2000,28(10):95-97
    57. 韦晓东,胡光锐,任晓林.应用倒谱特征的带噪语音端点检测方法.上海交通大学学报, 2000,34(2):185-188　
    58. 王道成,胡修林,张蕴玉.基于短时相关性和极值点的语音边界检测.华中理工大学学报,2000,28(12):13-15
    59. 李祖鹏,姚佩阳.一种语音段起止端点检测新方法.电讯技术,2000,(3):68-70
    60. 郭巧,张立伟, 陆际联. 用于汉语语音信号端点检测与切分的有效方法. 计算机工程与应用,2000,(5):92-94
    61. 张红,黄泰翼,李治.基于半波差分谱的语音信号音节切分.声学学报,2000,25(4):323-328
    62. 黄新宇,吴淑珍.基于单边自相关线性预测噪声中汉语语音识别.北京大学学报(自然科学版),2000,36(5):672-680

    63. 胡毅,胡咏梅.因特网上语音传输中静音抑制算法的研究.计算机工程与应用,2001,(19):112-113
    64. 范万春,邱宏茂,孙煜,施仁等.基于自相关函数的地震信号自适应端点检测. 核电子学与探测技术, 2001,21(5):348-351
    65. 贾川,张健,陈振标,徐波.噪声环境下的端点检测算法研究.第六届全国人机语音通讯学术会议论文集,2001,:441-445
    66. 王毓芳,尹宝林. 一种自适应的汉语普通话音节清/浊音分段方法.北京航空航天大学学报, 2001,27(14): 409-412
    67. 陈四根, 和应民.一种基于信息熵的语音端点检测方法.应用科技,2001,28(3): 13-14
    68. 沈亚强.低信噪比语音信号端点检测和自适应滤波.电子测量与仪器学报,2001,15(1):27-32
    69. 陈四根.基于熵函数的语音端点检测方法. 声学与电子工程,2001,(1):28-30
    70. 林嘉宇,王跃科,黄芝平等.一种新的基与混沌的语音,噪声判别方法.通信学报,2001,22(2):123-126
    71. 吴启晖,王金龙.基于谱熵的检测.电子与信息学报,2001,23(10):989-993
    72. 范万春,施仁,孙煜,邱宏茂等. 应用统计模型的地震信号端点检测方法.西安交通大学学报,2001,35(4):365-369
    73. 何方,朱杰,郁桦,曹少华.一种语音信号端点检测方法及其在DSP 上的实现. 微型电脑应用,2002,18(5):48-50　　
    74. 丁　琦,徐　望,王炳锡.时频参数和模糊分类器在词边界检测中的应用.信息工程大学学报,2002,3(4):10-20　
    75. 田　野,王作英,陆大金.基于子带能量线性映射的噪声中端点检测算法.清华大学学报(自然科学版) ,2002,42(7):953-956
    76. 李茂全,徐正全,胡瑞敏.用于回波抵消的最大长度序列相关近端语音检测算法研究.计算机与数字工程,2002,30(4):8-14
    77. 果永振,何遵文,毕志明.基于dsp实现语音端点检测.电声技术,2002,(12): 33-36
    78. 徐大为,吴边,赵建伟,刘重庆.一种噪声环境下的实时语音端点检测算法.计算机工程与应用,2003,(1):115-117

    79. 梁维谦,许海国,陈一宁,刘加,刘润生.应用于语音识别片上系统的语音检测算法.电路与系统学报,2003,8(2):66-70
    80. 丁琦,徐望,王炳锡.基于模糊分类器的能量可变噪声环境下的词边界检测.电声技术, 2003,(5):45-49
    81. 果永振,何遵文.一种多特征语音端点检测算法及实现.通信技术,2003,(1): 8-10
    82. 张文军,谢剑英.基于自适应平滑的模糊子带语音识别检测.通信技术,2003,(6):1-2
    83. 刘庆升,徐霄鹏,黄文浩.一种语音端点检测方法的探究. 计算机工程,2003,29(3):120-138
    84. 王朋,塔维娜,陈树中.带噪汉语语音识别的端点检测方法. 计算机工程,2003,29(17):120-121
    85. 高瑞华 ,朱君波 ,王守觉.一种基于能频积实现连续语音端点检测的方法. 计算技术与自动化,2003,22(4):75-77
    86. 崔冬青,李治柱吴亚栋.一种噪声环境下连续语音识别的快速端点检测算法.计算机工程与应用, 2003,(23):95-97
    87. 徐望,丁琦等.一种基于特征空间能量熵的语音信号端点检测算法.通信学报,2003,24(11): 125-132
    88. 古丽拉,于迎霞.基于LPC美尔倒谱特征的带噪端点检测.电声技术,2004,(2):53-55
    89. F.Beritelli. A Robust Endpoint Detector Based On Differential Parameters And Fuzzy Pattern Recognition. Icsp’98 Proceedings,:601-604
    90. Stephen Jacobs,Alexandros Eleftherialdis,Dimitris Annastassion. Silence Detection For Multimedia Communication Systems. MULTIMEDIA SYSTEM, 1999:157-164
    91. Jongseo Sohn, Nam Soo Kim, Wonyong Sung. A Statistical Model-Based Voice Activity Detection. IEEE SIGNAL PROCESSING LETTERS, 1999,6(1):1-3
    92. Qi Li, Jinsong Zheng, Augustine Tsai, and Qiru Zhou. Robust Endpoint Detection and Energy Normalization for Real-Time Speech and Speaker Recognition. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING , 2002 ,10(3):


    146-156
    93. Elias Nemer,Rafik Goubran,Samy Mahmoud .Robust Voice Activity Detection Using Higher-Order Statistics in the LPC Residual Domain. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING ,2001,9(3): 217-230
    94. Mark Marzinzik , Birger Kollmeier. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, 2002,10(2): 109-117
    95. Won-Ho Shin,Byoung-Soo Lee ,Yun-keun Lee and Jong-seok Lee .Speech/Non-spech Classification Using Multiple Features For Robust Endpoint Detection, ICASSP’2000,:1399-1402
    96. Liang-sheng Hua and Chung-ho yang .A Novel Approach To Robust Speech Endpoint Detection In Car Environments. ICASSP’2000,:1751-1754
    97. Qi Li, Jinsong Zheng, Qiru Zhou and Chin-Hui Lee. A Robust Real-time Endpoint Detection With Energy Normalization For ASR In Adverse Environments .ICASSP’2001,:233-236
    98. Arnaud Martin,Delphine Charlet,Laurent Mauuary .Robust Speech/Non-speech Detection Using LDA Applied To MFCC. ICASSP’2001, :237-240
    99. Osamu SEGAWA,Kazuya TAKEDA and Fumitada ITAKURA. Continuous Speech Recognition Without End-point Detection. ICASSP’2001,:245-250
    100. Dong Enqing, Liu Guizhong, Zhou Yatong ,Cai Yu. Voice Activity Detection Based On Short-time Energy AND Noise Spectrum Adaptation.ICSP’02 :464-467
    101. He Qiang, Zhang Youwei. On Prefiltering And Endpoint Detection Of Speech Signal. ICSP’98,:749-752
    102. ITU-T G.729B Implementation on the Star Core SC140 Core, Motorola (AN2278/D).
    103. Jean Claude Junqua . Robust Speech Recognition In Embedded Systems AND PC Application. Kluwer Academic Publishers, 2000
    104. 李建民.非特定人汉语全音节识别的研究及并行分布式二元映射模型的创建.清华大学工学博士学位论文,1993,:40-50
    105. 池边进.汉语单音节识别研究.清华大学学位论文,1990,:60-67

    106. 李虎生,刘加,刘润生.高性能汉语数码语音识别算法.清华大学学报(自然科学版),2000,40(1): 32-34
    107. 王毓芳.基于声学语音学知识的动态结构汉语连续语音识别框架.北京航空航天大学学位论文, 2001,:20-97
    108. 向建军,戴乐,袁晓.语音信号包络提取与汉语音节包络头分析.数据采集与处理,2001,16(3):334-337
    109. 基于汉语单字音尾可切除原则和假设检验知觉理论的连接词识别算法,声学学报,1999,24(4):385-390
    110. 初敏, 唐涤飞等.汉语音节音联感知特性研究.声学学报.1997,22(2):104-110
    111. 林茂灿, 颜景助.普通话带鼻尾零声母音节中的协同发音.应用声学, 1994,13(1):12-20
    112. 卢绪刚, 陈道文.听觉计算模型在鲁棒性语音识别中的应用.声学学报, 2000,25(6):492-498
    113. 王海军.基于听觉模型的语音特征提取和有限命令的连续语音识别的算法研究. 南京理工大学硕士学位论文,2001
    114. 吴玺宏.听觉感知理论与听觉场景分析计算模型.北京大学博士后研究工作报告, 1997
    115. 李想.基于听觉心理学的计算声场景分析模型. 东南大学硕士学位论文,2000
    116. 陈雪勤.基于计算声场景分析的混叠语音分离研究. 苏州大学硕士学位论文,2002
    117. 陈雪勤, 赵鹤鸣, 陈小平. 基于计算听觉场景分析的强噪声背景下基音检测方法. 电路与系统学报,2003,8(3):128-131
    118. NOISEX-92噪声库下载.
    URL1: http://spib.ece.rice.edu/spib/data/signals/noise
    URL2: http://spib.rice.edu/spib/select_noise.html
    其它网上资料:
    119. 电脑也能读唇语.
    http://www.people.com.cn/GB/it/53/142/20030501/983126.html..人民日报,(2003-05-01第七版)
    120. 英特尔推出读唇语的AVSR软件.
    http://article.pchome.net/2003/04/30/9176.htm.2003-04-3

    121. 可读唇语手机.
    http://www.zaobao.com/special/newspapers/2002/04/hfwb110402.html.
    合肥晚报,(2002-04-11)
    122. 世界清静了:日本“唇语”手机http://computer.online.sh.cn/computer/gb/content/2002-04/09/content_325812.htm.2002-04-09

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700