语料对齐工具的性能比较与选择
详细信息    查看全文 | 推荐本文 |
  • 作者:蔡辉
  • 关键词:语料 ; 对齐 ; 对齐准确率
  • 中文刊名:ZGFY
  • 英文刊名:Chinese Translators Journal
  • 机构:中央财经大学;
  • 出版日期:2019-05-15
  • 出版单位:中国翻译
  • 年:2019
  • 期:v.40;No.255
  • 语种:中文;
  • 页:ZGFY201903017
  • 页数:6
  • CN:03
  • ISSN:11-1354/H
  • 分类号:151-156
摘要
本文利用实验研究的方法,以文学、财经和科技三种文体为样本,对6款常见的语料对齐工具进行了比较研究。研究发现:(1)除Dé jà Vu X3之外,相同文本使用docx和txt格式对对齐结果没有影响;(2)Transmate、ABBYY Aligner 2.0和memoQ 2015的对齐准确率位居前列,表现稳定;(3)使用不同体裁的文本,对齐质量也会不同。科技文本的对齐效果最佳,其次是财经和文学;(4)对齐准确率是评测对齐质量的主要指标,但不是唯一指标;(5)距离完美对齐的距离、句段长短、标签数量也影响对齐质量。本文还提出了对齐准确率的概念和计算公式。本研究对对齐工具的选择和改进具有一定参考作用。
        
引文
[1]陈钰枫、宗成庆、苏克毅.汉英双语命名实体识别与对齐的交互式方法[J].计算机学报,2011(9):1689-1695.
    [2]王斌、刘群、张祥.汉英双语库自动分段对齐研究[J].软件学报,2000(11):1548-1554.
    [3]俞劲松、王惠临、吴胜兰.高正确率的双语语块对齐算法研究[J].中文信息学报,2015(1):67-74.
    [4]Brown,P.F.,Lai,H.C.&Mercer,R.L.Aligning sentences in parallel corpora[A].Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics[C].1991:169-176.
    [5]Gale,W.&Church,K.A program for aligning sentences in bilingual corpora[J].Computational Linguistics,1991(1):75-89.
    [6]Kay,M.&Roscheisen,M.Text-translation alignment[J].Computational Linguistics,1993(1):121,142.
    [7]Ker,S.J.&Chang J.S.A class-based approach to word alignment[J].Computational Linguistics,1997(2):313-341.
    [8]Tan,C.L.&Nagao,M.Automatic alignment of Japanese-Chinese bilingual texts[J].IEICE Transactions on Information and Systems,1995(1):481-485.
    [9]Wu,D.Aligning a parallel English-Chinese corpus statistically with lexical criteria[A].Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics[C].Las Cruces,New Mexico,1994:80-87.
    (1)2015年11月18日,TMXMall发布了在线版对齐工具,2016年7月31日,发布单机版对齐工具Tmxmall Aligner。由于后者是付费工具,本研究采用的是在线版。
    (2)见https://abbyy-ls.com/about。
    (3)Tmx(translation memory exchange)是记忆库的标准格式,它可以便捷地导入到各种CAT工具的记忆库中。DéjàVu、memo Q和SDL Trados在对齐后,需要经过更多的操作,才能将对齐文件导出为tmx格式。
    (4)Tmxmall生成段落对齐,这降低了对齐的难度,但同时也降低了对齐的质量,因为段落对齐的复用率很低,而从段落对齐生成句对齐的记忆库,还需要大量人工干预。
    (5)此处的原文句段数是指由人工计算的原文句段数,见表2。
    (6)见http://producthelp.sdl.com/SDL%20TM%20Server%202009%20SP3/en/mergedProjects/glossary/TMSGlossary.htm。
    (7)以句号、分号、感叹号以及段落回车(不计算以句号、分号、感叹号结尾的段落回车)为标志计算句段数量。
    (8)见https://www.rd.com/advice/parenting/teacher-inspires-harlemchildren/。
    (9)见https://www.adb.org/sites/default/files/publication/159310/adbi-aseanprc-india-transformation.pdf,第23-24页。
    (10)见http://www.freepatentsonline.com/y2017/0167358.html。
    (11)SDL Trados2017版没有查到所支持的格式数量,20是根据SDLTrados 2007版统计得来的数据。
    (12)句段切分多于原文句段数量的计算方法为:原文句段数-(切分句段数-原文句段数)/原文句段数×%
    (13)取小数点后一位,四舍五入。
    (14)括号内分数为对齐句段数和原文句段数之比。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700