摘要
语料库资源对于自然语言处理研究的巨大价值已经得到社会各界越来越多的认可。特别是句子级对齐的双语平行语料库,已经成为机器翻译、翻译知识获取以及双语词典编纂研究不可或缺的重要资源。本文结合青海省科技厅项目《汉藏句子自动对齐技术研究》的研究经验,提出了一种利用句子长度和锚点信息相结合的汉藏双语句子对齐方法,该方法利用(1:1)型的句珠作为候选锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。
引文
[1]李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006(5).
[2]熊伟,陈蓉,刘佳,徐淼,于中华.面向小词典的高效英汉双语语料对齐算法[J].计算机工程,2007(13).
[3]王占军,姚卫东.一种汉英双语句子自动对齐算法[J].计算机仿真,2009(2).
[4]邓丹,刘群,俞鸿魁.基于双语词典的汉英词语对齐算法研究[J].计算机工程,2005(16).
[5]吕学强,吴宏林,姚天顺.无双语词典的英汉词对齐[J].计算机学报,2004(8).
[6]吕学强,李清隐.基于统计的汉英句子对齐研究[J].小型微型计算机系统,2004(6).
[7]江荻.现代藏语动词的句法语义分类及相关语法句式[J].中文信息学报,2006(1).
[8]于新.基于词典的汉藏句子对齐研究与实现[J].中文信息学报,2011(7).
[9]才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011(11).