用户名: 密码: 验证码:
基于多算法集成和神经网络的汉字识别系统的研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
手写体(脱机)汉字识别是当前OCR技术研究的热点之一,也是计算机字符识别中最为困难的一个课题。本文在分析当前汉字识别最新发展技术的基础上,提出了一种基于多算法集成和神经网络的汉字识别系统。在此系统中,我们针对神经网络在小类别模式识别中的成功应用,先采用基于汉字粗外围特征的距离分类器作为粗分类,以将待识汉字集分成若干个小的汉字集合,然后用基于汉字弹性网格像素概率分布特征的BP神经网络分类器作为细分类,以实现汉字识别的目的。
     本文首先对系统中汉字输入、预处理、粗分类、细分类和后处理五大模块进行了较详细的说明,特别是对神经网络分类器,不仅讨论了其原理、特征提取、BP算法实现和网络结构及参数选择,还探讨了BP算法的缺陷问题并提出了改进方法。
     然后在Matlab神经网络工具箱的基础上,探讨了BP网络在Matlab环境中的实现,并给出了BP网络建立、训练和仿真过程的编程方法。
     最后,我们在Matlab中对10类汉字100个不同样本进行了初步仿真实验,取得了识别率为95%的良好效果,表明将神经网络引入到手写体汉字识别的研究是比较成功和可行的。
Handwritten (off-line) Chinese character recognition (HCCR) has become favorable area in OCR by now,and is the most difficult project in computer character recognition too. After analyzing the currently up-to-date techniques for Chinese character recognition,in this paper,we propose a Chinese character recognition system based on multi-algorithm integration and neural network. According to the successful application to pattern recognition of small category for neural network,in this system,we use a distance classifier based on gross periphery feature for rough classification in order to classify the total Chinese character set to some small sets,and then a BP network classifier based on the probability distribution of pixels with elastic meshing is used for fine recognition.
    In this paper,first,the five modules in the system are explained in detail including the input of Chinese character,preprocessing,rough classification,fine classification and post-processing. Especially as to the neural network classifier,we not only discuss the fundamental principle of BP network,feature extraction,the realization of BP network,the selection of network structure and parameters,but also discuss its drawbacks and its improved solutions.
    Secondly,based on the neural network toolbox,a convenient realization on MATLAB is discussed for BP neural network,and the programming methods are presented about how to create a network,train a network and simulate a network.
    
    
    Lastly,by use of MAILAB,preparatory experiment on total 100 samples of 10 categories of handwritten Chinese characters produced the result of recognition rate of 95%,showing that using neural network for HCCR is feasible and promising. It will be of great importance to direct the establishment of practical HCCR system.
引文
[1]吴佑寿,丁晓青.汉字识别原理方法与实现.高等教育出版社.1991
    [2]丁龙,陆俞.汉字OCR的原理、方法与应用.高师理科学刊.1998(2)
    [3]边肇祺等.模式识别.清华大学出版社.2000
    [4]张忻中.汉字识别技术.清华大学出版社.1992
    [5]丁晓青,郭繁夏.汉字识别技术的发展.1993(4)
    [6]张中.汉字识别技术综述.语言文学应用.1997(2)
    [7]朱小燕,史一凡,马少平.手写体字符识别研究.模式识别与人工智能。2000(2)
    [8]郭军.智能信息技术.北京邮电大学出版社.1999
    [9]张德喜.手写体机器识别技术的现状分析.许昌师专学报.1999(3)
    [10]郭军,钟义信等.发展中的文字识别理论与技术.电子出版.1995(10)
    [11]鲍胜利,沈予洪.汉字识别技术的新方法及发展趋势。实用测试技术.2002(2)
    [12]丁晓青,郭繁夏.中文OCR技术最新进展(上).电子出版.1995(12)
    [13]丁晓青,郭繁夏.中文OCR技术最新进展(下).电子出版.1996(1)
    [14]赵跃龙,金先级.基于神经网络的手写体数字识别系统的研究.电子计算机外部设备.1994(2)
    [15]洪芯,何振亚.手写体数字的神经网络识别方法。模式识别与人工智能.1994(1)
    [16]程开富。CMOS图像传感器的技术进展及市场分析与预测.重庆光电技术研究所.2000(3)
    [17]征荆,丁晓青,吴佑寿.多算法集成解决联机手写汉字识别粗分类问题.模式识别与人工智能.1998(2)
    [18]何斌,马天予等.Visual C++数字图像处理.人民邮电出版社.2001
    [19]阮秋琦.数字图像处理学.电子工业出版社.2001
    [20]Wen-Tsuen Chen, Chia-Hsien Wen, Chin-Wen Yang. A Fast Two-dimensional Entropic Thresholding Algorithm. Pattern Recognition, Vol. 27, N0.7, pp885-893, 1994
    [21]白廷柱.提高OCR识别率的研究.北京理工大学学报.1994(s1)
    
    
    [22]李存华.基于轮廓投影方法的文本图像偏斜纠正.中国图象图形学报.2001(10)
    [23]蔡樱,盛立东.中文手写文稿的二值化与行列切分.北京邮电大学信息工程系.1999(6)
    [24]唐国维,关学忠,李永军.印刷体汉字识别预处理技术的研究.大庆石油学院学报.1996(2)
    [25]Seong-Whan Lee, Jeong-Seon Park. Nonlinear Shape Normalization Methods For The Recognition Of Large-Set Handwritten Characters. Pattern Recognition, Vol.27, NO. 7, pp895-902, 1994
    [26]金连文,梁宇杰.一种新的距离分类方法及其应用.计算机工程.Vol25,NO8.1999
    [27]钱真,宋克欧.一种句法和统计相结合的手写体字符识别系统.模式识别与人工智能.1989(2)
    [28]任金昌等.一种快速有效的印刷体文字识别算法.中国图象图形学报.2001(10)
    [29]Rogova G. Combining the Results of Several Neural Network Classifiers. Neural Networks, 1994, 7(5): 777-781
    [30]Lei Xu. Methods of Combining Multiple Classifiers and Their Applications to Handwritten Recognition. IEEE Trans System, Man and Cybernetics, 1992, 22(3): 418-135
    [31]从爽.面向MATLAB工具箱的神经网络理论与应用.中国科学技术大学出版社.1998(2)
    [32]阎平凡,张长水.人工神经网络与模拟进化计算.清华大学出版社.2000(11)
    [33]Shunji Mori, C.Y.Suen and Kazuhiko Yamamoto. Historical review of research and development, Proceedings of the IEEE, Vol. 80, No. 7, 1992. 1029-1058 Vo. 2, NO. 3, 1997
    [34]金连文,徐秉铮.手写体汉字识别中的一种新的特征提取方法,电路与系统学报.Vo.2,NO.3,1997
    [35]黄瀚敏等.基于神经网络的字符识别技术研究.重庆大学学报.1999(6)
    [36]字大欣,徐久成.BP神经网络在数字识别方面的应用.西安工业学院学报.1995(1)
    [37]高雪鹏,从爽.BP网络改进算法的性能对比研究.控制与决策.2001(2)
    [38]李宇蜂等.BP神经网络实际应用中的若干问题.兵工自动化.1998(1)
    [39]姜绍飞等.BP网络模型的改进方法探讨.哈尔滨建筑大学学报.2000(5)
    [40]闻新等.MATLAB神经网络应用设计.科学出版社.2001(5)
    
    
    [41]黄国建等.提高人工神经网络BP算法收敛速度的几种方法.华东船舶工业学院学报.1994(2)
    [42]巨军让,卓戎.BP神经网络在MATLAB上的方便实现.新疆石油学院学报.1999(2)
    [43]从爽,向微.BP网络结构、参数及训练方法的设计与选择.计算机工程.2001(10)
    [44]刘端正,赵海兰.一个基于综合匹配的汉字识别后处理系统.小型微型计算机系统.1998(5)
    [45]刘源,梁南元.汉语处理的基础工程—现代汉语词频统计.中文信息学报.1987(10)
    [46]江虹,曾立波,胡继明.优化的BP神经网络分类器的设计与实现.计算机工程与应用.2001(5)
    [47]杜敏,辛大欣.基于混合特征提取的手写体数字识别方法的研究.西安交通大学学报.1996(9)

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700