用户名: 密码: 验证码:
基于HOG特征的财务报表图像识别
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Image recognition of financial statement based on HOG feature
  • 作者:邓小宁 ; 孙琳 ; 陈念年 ; 张玉浦
  • 英文作者:DENG Xiao-ning;SUN Lin;CHEN Nian-nian;ZHANG Yu-pu;School of Computer Science and Technology,Southwest University of Science and Technology;
  • 关键词:纸质财务报表 ; 单元格分割 ; 字符分割 ; 训练样本制作 ; 字符识别
  • 英文关键词:paper financial statement;;cell division;;character segmentation;;training sample preparation;;character recognition
  • 中文刊名:GWDZ
  • 英文刊名:Electronic Design Engineering
  • 机构:西南科技大学计算机科学与技术学院;
  • 出版日期:2019-05-20
  • 出版单位:电子设计工程
  • 年:2019
  • 期:v.27;No.408
  • 基金:四川省教育厅科技成果转化重大培育项目(14zd1102);; 四川省苗子工程(2017113);; 西南科技大学龙山学术人才科研支持计划(17LZX425);西南科技大学大学生创新基金项目资助(cx18-039)
  • 语种:中文;
  • 页:GWDZ201910019
  • 页数:5
  • CN:10
  • ISSN:61-1477/TN
  • 分类号:90-94
摘要
在财务领域,纸质报表向电子报表的转换需要大量的人工和时间成本。本文探究了纸质财务报表的自动识别过程,通过预处理、表头和表格区域的分割提取、单元格分割、字符提取与识别、表格还原等过程实现报表图片的转换,在实现报表信息便捷存储和查询的同时,也克服了人工录入的低效率、高成本等缺点。实验结果表明,该算法能有效实现图像的倾斜校正,且无需设置提示框限定拍摄范围;能有效分割表格格式的字符,其准确率为99.3%,无需手动框选待识别字符;字符识别准确率为93.7%,其中数字识别的准确率为97.8%,总体字符识别准确率相较Tesseract提升了8.1%。
        In the financial field,the conversion of paper reports to electronic reports requires a large amount of labor and time costs.This article explores the process of the automatic recognition of the financial statements of the paper,through pretreatment,extraction and segmentation of header and form region, cell segmentation, character extraction, character recognition, form reduction process implementation report the identification of the picture, in the implementation report information convenient storage and query at the same time,also overcome the low efficiency of manual entry,such as high cost disadvantage.The experimental results show that the algorithm can effectively realize the tilt correction of the image without setting the frame to limit the shooting range.Can effectively divide the character of table format,its accuracy is 99.3%,do not need manual box to choose to recognize characters;The accuracy rate of character recognition is 93.7%,and the accuracy rate of digital recognition is 97.8%,which is 8.1% higher than that of Tesseract.
引文
[1]许刚.汉王科技电子产品开发项目管理研究[D].北京:北京理工大学,2016.
    [2] Heliński M,Kmieciak M,Parko?a T. Report on the comparison of Tesseract and ABBYY FineReader OCR engines[EB/OL]. http://www.doc88.com/p-7798909431564.html.
    [3]凃益民.基于OCR的身份证识别系统[D].武汉:华中科技大学,2014.
    [4]龚俊亮,何昕,魏仲慧,等.采用剪切波变换的红外弱小目标图像预处理[J].微电子学与计算机,2013,30(4):5-9.
    [5]马玲玉.基于OpenCV手机拍照快递单文字识别的研究[D].哈尔滨:哈尔滨商业大学,2016.
    [6]任劼,许铭,赵慧民.基于多边形顶点单应映射的多摄像机前景融合实时运动目标检测[J].中山大学学报:自然科学版,2016,55(4):30-38.
    [7]代勤,王延杰,韩广良.基于改进Hough变换和透视变换的透视图像矫正[J].液晶与显示,2012,27(4):552-556.
    [8]马塾亮,王俊平,邓晟,等.图空间上自适应形态学算子[J].电子学报,2018,46(1):118-126.
    [9]黄金.人工神经网络在图像处理中的运用分析[J].电子技术与软件工程,2015(18):92.
    [10]蒋昭颖,郝福珍.基于改进模板匹配算法的伤票识别与定位[J].电子设计工程,2018,26(3):175-179.
    [11]李静,高晓蓉,杨凯.基于HOG特征及SVM的机车车底螺栓检测方法[J].信息技术,2016(3):125-127.
    [12]罗滨,朱长仁,任云,等.基于主方向的旋转不变HOG特征[J].现代电子技术,2015,38(22):84-87.
    [13]郭鹤,石佩斐. ABS齿圈检测仪误差校正方法的研究[J].电子测量与仪器学报,2017,31(7):1122-1128.
    [14]徐渊,许晓亮,李才年,等.结合SVM分类器与HOG特征提取的行人检测[J].计算机工程,2016,42(1):56-60,65.
    [15]Patel C, Patel A, Patel D. Optical Character Recognition by Open source OCR Tool Tesseract:A Case Study[J]. International Journal of Computer Applications,2012,55(10):50-56.
    [16]Nayak M,Kumar A. Odia Characters Recognition by Training Tesseract OCR Engine[J]. International Journal of Computer Applications,2013,ICDCIT2014(1):975-8887.
    [17]周小军,王凌强,郭玉霞,等.基于生物特征识别的身份认证及相关安全问题研究[J].工业仪表与自动化装置,2018(4):16-20.
    [18]董萍,马红军.新轮廓波变换与二维非负矩阵分解的图像融合[J].重庆师范大学学报:自然科学版,2016(5):101-107.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700