用户名: 密码: 验证码:
B737定检工卡中的手写汉字识别后处理关键技术的研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文是针对民航局项目《基于OCR技术的B737飞机定检数据收集系统的研发》中关键技术的研究。本项目是民航数字化维修得以实现的前提之一。尤其解决工卡信息数字化问题,为民航数字化维修打下基础。
     本项目的关键技术是手写汉字后处理。它是上文提及项目的一个子系统。所谓手写汉字后处理就是利用词库和语言模型模拟人对错字或缺失字的判断,来纠正OCR(Optical Character Recognition,光学字符识别)的单字识别结果。其主要用于完成定检工卡中手写汉字内容的单字识别优化。
     本文首先分析了目前汉字识别后处理的基本理论和算法,采用了词匹配和语言模型相结合的方法。其次,以《B737专业词典》建立专业词库,采用词匹配的方法,对工卡中手写汉字部分中专业词汇进行匹配,输出匹配结果。再次,以定检工卡中的汉字部分为基础,进行统计得到统计词库,利用统计词库来进行识别。其实现原理是依据语言模型计算出每个候选字的条件概率和单字识别结果所给出的候选概率,两者以一定方式相加得出综合概率,在综合概率中找出概率最大候选字即为输出结果。最后,后处理结果与单字识别结果的对比验证了该方法的有效性。
     本文技术上使用VC++编程技术开发,应用ADO技术操作ACCESS数据库,采用人工、TXT文档及XML文档对单子识别结果进行录入,通过应用专业词库匹配及统计语言模型对单字识别结果进行后处理,对OCR单字识别结果进行优化。
This article is based on OCR technology B737aircraft scheduled inspection datacollection systems R&D in key technologies for the Civil Aviation Authority project. Thisproject is one of the prerequisites of the Civil Aviation digital maintenance can be achieved.In particular, to solve the problem of the digital information of job cards, lay the foundationfor the civil aviation digital maintenance.
     The key technology of this project is to post-processing handwritten Chinese characters.It is a subsystem of the project mentioned above. The so-called handwritten Chinese characterprocessing is the use of a lexicon and language model to simulate human judgment typo ormissing word to correct the OCR (Optical Character Recognition., Optical characterrecognition), character recognition result.It is mainly used to optimize the completion of thecharacter recognition of handwritten Chinese characters in the content in the regularinspection work cards.
     The paper first analyzes the basic theory and algorithm of the present Chinese characterrecognition processing, using a combination of word matching and language model. Secondly,the B737Professional Dictionary, professional vocabulary, word matching method to matchthe specialized vocabulary handwritten Chinese character part of the job cards, outputmatching results. Again, the Chinese characters in the regular inspection work cards, statisticsare statistics thesaurus, the use of statistical thesaurus to identify. The principle is to calculatethe probability of a candidate is given by the conditional probability of each candidate word,and word recognition results according to the language model, both derived by adding theintegrated probability in a certain way, in the integrated probability to find the probability ofthe largest candidate the output results. Finally, post-processing and character recognitionresults compared and verified the validity of the method.
     Technically this article use the VC++programming technology development andapplication of ADO technology operations ACCESS database, artificial, TXT files and XMLdocuments on the list to identify entry and post-processing of character recognition resultsthrough the application of professional vocabulary matching and statistical language model,OCR character recognition results to optimize.
引文
[1]张超峰.从传统到智能——浅谈未来民航飞机维修技术的发展[J].中国民用航空,2009,102:64-65
    [2]高红星,左洪福.面向未来的民航数字化维修[J].江苏航空,2005,2:8-10
    [3]李淑芳.航空机务维修生产管理信息系统[J].中国民航学院学报,2003,21:76-78
    [4]陈锡辉.南航维修业的信息化实践[J].航空维修与工程,2005,1:139-142
    [5]刘琦.机务维修管理系统亟待解决的几个问题[J].民航管理,2004,5:58-60
    [6]王浩.基于信息驱动的保障技术研究[J].飞机设计,2010,30(3):64-67
    [7]马明霞. OCR技术在数字图书馆文档加工中的应用[J].晋图学刊,2003,1:23-25
    [8]彦佳. OCR在民国报刊数字化项目中的应用研究[D].上海:华东师范大学,2008
    [9]刘传憬.一个实用的多字体多字号印刷汉字OCR系统[J].计算机应用研究,1995,4;12-15
    [10]侯艳平.脱机手写体汉字识别研究[D].扬州:扬州大学,2008
    [11]宫淑兰.手写数字识别的研究与应用[D].济南:山东大学,2006
    [12]张中.汉字识别技术综述[J],语言文字应用,1997,2:45-47
    [14]马鹏飞.基于J2EE的发动机维修管理框架及系统设计[D].西安:西北工业大学,2006
    [13]李联涛. OCR技术在B737定检工卡数字化中的应用[J].科技经济市场,2011,8:9-11
    [15]吴佑寿,丁晓青.字识别原理、方法与实现[M].北京:高等教育出版社,1992.100-132
    [16]彭涛.基于统计的汉字识别后处理研究[D].石家庄:河北大学,2003
    [17]夏荣.基于统计的汉字识别文本自动后处理方法[J].模式识别与人工智能,1996,9(2):172-178
    [18]李元祥,丁晓青.基于HMM的汉语文本识别后处理研究[J].中文信息学报,1999,13(4):29-34
    [19]郝海芳.手写汉字识别后处理方法的研究与实现[D].广州:华南理工大学,2000
    [20]刘利娜.手写体字符识别的研究与应用[D].无锡:江南大学,2009
    [21]苗兰芳.基于N链字的汉字识别后处理方法的研究[D].杭州:杭州大学,1998
    [22]姜珊.汉字识别后处理的研究与实现[D].武汉:武汉工业大学,1998
    [23]刘光中,李晓峰.人工神经网络BP算法的改进和结构的自调整[J].运筹学学报,2001.5(1):81-88
    [24]吴小培,费勤云.一种提高BP算法学习速度的有效途径[J].安徽大学学学报,1999,22(3):34-37
    [25]姚天顺.自然语言理解—一种让机器懂得人类语言的研究[M].北京:清华大学出版社,1995:65-78
    [26]刘开瑛,郭炳炎.自然语言处理[M].北京:科学出版社,1991:97-103
    [27]李国华,马少平.基于词字间二元语法模型的汉字识别后处理方法[J].第五届全国汉字识别语音识别论文集.1994,3:181-186
    [28]李宏东,叶秀清.一种带有虚节点的HMM汉字识别后处理算法[J].信号处理,1999,15(3):254-259
    [29]秦娇华,向旭宇. HMM在汉字识别技术中的应用[J].现代计算机,2000,7:29-31
    [30]杜林,吴健.基于词性标注的汉字识别后处理[A].成都国际计算机会议(成都部分)论文集[C].香港:1996:567-578
    [31]马忠宝.基于支持向量机的中文文本分类系统研究[D].武汉:武汉理工大学,2006
    [32]黄德根,朱和合.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,6:831-835
    [33]戴明坚,张大方.书面汉语自动分词技术与实现[J].计算机技术与自动化,1990,3:17-20
    [34]甘雨.基于并行计算的中文分词系统的研究与实现.广州:广东工业大学,2010
    [35]刘瑞正,赵海兰.一个基于综合匹配的汉字识别后处理系统[J],小型微型计算机系统,1998,19(5):71-76
    [36] Gu Huangyan,et. al.Markov Modeling of Mardarin Chinese for Decoding the Phonetic Sequence intoChinese Characters[J]. Computer Speech&Language,1991,5(563):254-267
    [37]董广宇,吕学强.基于N-gram语言模型的汉字识别后处理研究[J].微计算机信息,2009,4:33-36

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700