基于MELP 2.4kbps语音编解码器的改进
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
数字语音有着模拟语音无法比拟的优势,具有保密性强,抗干扰性能好等优点。目前中速率编解码器在16kbps,9.6kbps已经达到了很好的语音质量,甚至中低速率4.8kbps的编解码器已经到了相当成熟的地步。2.4kbps编解码器的语音有较高的可懂度,但音质处于4.8kbps编解码器和1.2kbps编解码器之间,所以将来的一段时间里人们的研究重点将是2.4kbps及2.4kbps以下速率编解码器。
     低速语音编解码器算法和结构朝着越来越复杂的方向发展,很多原来应用于中速编解码器的技术被应用到低速编解码器中。例如美国98年公布的2.4kbps联邦声码器标准(MELP混合激励线性预测)。该编解码器是低速语音编解码器中一个非常优秀的编解码器。它基于LPC,采用了多项新技术,其性能达到甚至超过了一般中低速率(4.8kbps)编解码器。这里我们将对该编解码器进行改进,使其语音质量达到更高的水平。
     课题主要创新和工作主要如下:
     (1) 对语音信号进行分析,寻找过渡帧的特性,根据过渡帧的特性设置判断过渡帧的参数门限值。
     (2) 将语音帧中的过渡帧进行分割,分成两个子帧,分别进行编码和解码。从而避免了由于过渡帧被简单地划分成清/浊音而带来的误差。
     (3) 对编码器的码本进行改进,清浊音采用两个不同的码本,从而在不增加计算量的情况下增加码本容量,提高信噪比。
     (4) 对原编解码器的帧结构,比特分配进行调整,进而使得改进后的编解码器在最好的状态下运行。
     (5) 对实验结果进行理论分析。
Digital speech signal have much more advantages than analog speech signal. It has high safety, high anti-jamming property. The performance of the 16kbps and 9.6kbps speech codec is very excellent, the technology of 4.8kbps speech codec is also successful. The performance of 2.4kbps speech codec is poorer than 4.8kbps and better than 1.2kbps.So in the future, the emphasis of low rate speech codec research is the 2.4kbps speech codec.
    The arithmetic and construct of low rate speech codec is becoming more and more complicated. A lot of mid-rate speech codec technologies used in low rate speech codec. For example, MELP (mix excited linear predictor) 2.4kbps speech codec, the speech codec standard of 98 federal American. It is a very excellent low rate speech codec. It based on LPC, adopted many new technologies, its performance even exceeded mid-low rate speech codec (4.8kbps).To improve its performance we will adapt it.
    The improvement of the codec and my work are listed as below:
    (1)Analyse the speech signal and find the properties of the transition speech frame. Set the value of parameters to judge the transition speech frame.
    (2)Cut the transition speech frame into two smaller frames, encode and decode them independently. So it will avoid the error produced by classing the transition frame into V/UV frame.
    (3)Adapt the codec's code book, using two code books, the voiced code book and the unvoiced code book. So it can enhance the SNR by increasing the volume of the code book when the calculation isn't increased.
    (4)Adapt the bit allotion to fit the improvement.
    (5)Analyse the result of the experiment.
引文
[1] 杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版社,1998
    [2] D.G.Childs.matlab之语音处理与合成工具箱[M].北京:清华大学出版社,2004
    [3] 张雄伟,陈亮,杨吉斌.现代语音处理技术及应用.机械工业出版社
    [4] 胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000年05月
    [5] 陈永彬.语音信号处理[M].上海:上海交通大学出版社,1991年1月
    [6] 赵力.语音信号处理[M].北京:机械工业出版社,2003
    [7] 韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004
    [8] (美)拉宾纳,L·R,(美)谢弗,R·W著;朱雪龙译.语音信号数字处理[M].北京:科学出版社,1983年2月
    [9] 张志勇.精通Matlab5.3版[M].北京:北京航空航天大学出版社,2000年8月
    [10] 谭浩强.C语音程序设计[M].北京:清华大学出版社,1998年7月
    [11] 刘宽海,葛万成.MELP低比特率数字语音编码技术研究.信息技术,2003年8月
    [12] 华国刚,戴蓓箐,张钦,李辉.一种改进的MELP语音编码方法.电路与系统学报,2003年2月
    [13] 金子建,钱国明,王中.变个数多脉冲激下低比特率高质量LPC语音台成器研究[J].信号处理.第六卷第二期,1990年6月
    [14] 潘孝梅.基于LPC和CVSD编码技术语音合成电路及其应用[J].微型机与应用,1993年6月
    [15] 陈四根,杨莘元.MBE变速率语音编码研究.应用科技,2003(5):14-16页
    [16] 宁更新,方敏群,韦岗.SMV语音编码算法及仿真.计算机工程与应用,2003(29):84-86页
    [17] 王洪,王炳锡.变速率语音编码的现状与发展.电信快报,34-36页
    [18] 吴丽丽,刘益.线性预测及其DSP实现.电声技术,2004(1):10-12页[19] 杨敏芝.低于4kbps速率的语音编码技术.电信资料,2003年第5期
    [20] 陈亮,杨雄伟.一种600bps甚低速率声码器的研究.信号处理,2002年10月
    [21] 王恩刚,成立新,丁庆海.一种采用谐波激励的2kbps语音编码算法.电信快报,论文选粹
    [22] 李永明,蒋天仪,陈弘毅.基于LSP的1.44kbps语音编解码算法.微电子学与计算机,2003年第3期
    [23] 杨国芳,高飞.一种基于G.729的CS-ACELP新算法.语音技术,2004年1月
    [24] 蔡国权,宋国文.国际电联关于4kbps语音编码标准的几种候选算法介绍.电信技术研究,1998年第2期
    [25] 胡仕兵,向敬成,翟义然.G.729语音编码器定点DSP的实时实现.电子科技大学学报,2003年8月
    [26] 张鑫,崔慧娟,唐昆.一种甚低速率语音编码的抗误码算法.电子学报,2002年第9期
    [27] 朱琦,邺广增.一种可用于CDMA移动通信的变速率语音编码算法.电子与信息学报,2002年第6期
    [28] W. B. Kleijn, K. K. Paliwal. Speech Coding and Synthesis, Amsterdam, The Netherlamds: Else-vier, 1995, 15-40P
    [29] R. V. Cox, Three new speech coders from the ITU cover a rang of application. IEEE Comm. Mag, 1997, 35(9), 40-47P
    [30] B. Adil, S. Eyal, A silence compression scheme for use with G.729 optimized for V. 70 digital simultaneous voice and data applications, IEEE Comm. Mag, 1997, 35(9), 64, 73P
    [31] Scan A. Ramprashad and Peter Kroom.Low Complexity Speech Coding at 1.2 to 2.4kbps Based on Waveform Interpolation. International journal of speech technology 2, 329-341P(1999).
    [32] Kabal P and Ramachandran RP. The Computation of Line Spectral Frequencies Using Chebyshev Polynomials. IEEE Transaction on Acoustics, Speech, and Singal Processing, December 1986, Vol. assp-34, No. 6: pp1419-1426
    [33] Scan A. Ramprashad and Peter Kroon. Low-Rate Multimode Multiband Spectral Coding of Speech. International journal of speech technology 2,??317-327P(1999)
    
    [34] Bumett,I.S.and Bralley,G.J.(1995).New techniques for multiprototype waveform coding at 2.84kbps.Proc.ICASSP'95, 261-264P
    
    [35] Chen,J.H. and Gersho,A.(1995). Adaptive postfiltering for quality enhancement of coded speech.IEEE Trans.Speech and Audio Processing,3:59-71P
    
    [36] Kleijn,W.B.and Haagen,J.(1995a).A speech coder based on decomposition of characteristic waveform.Proc.ICASSP'95,508-511P
    
    [37] Kleijn,W.B.and Haagen,J.(1995a).Waveform interpolation for coding and synthesis.In W.B.Kleijn and K.K.Paliwal(Eds.),Speech Coding and Sythesis.Elsevier
    
    [38] Kleijn,W.B.Shoham,Y,Sen,D,and Hagen,R.(1996).A low-complexity waveform interpolation coder.Proc.ICASSP'96,pp.212-215.
    
    [39] Pham,D.H. and Bumett,I.S.(1996).Quantisation techniques for prototype waveforms.Proc.Int.Symp.Sig.Proces.and App,ISSPA, 53-56P
    
    [40] McCree,A.and Bamwell,T.P.(1995).A mixed excitation LPC vocoder model for low bit rate speech coding.IEEE Trams.Speech and Audio Proc, 3(4): 242-250P
    
    [41] Zhou,J,Shoham,Y,and Akansu,A.(1996).Simple fast vector quantization of the line spectrral frequencies.Proc.ICSLP'96,2:945-948(also available on CDROM)

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700