用户名: 密码: 验证码:
基于谷歌翻译及Doc2vec的中英句子相似度计算
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Chinese-English sentence similarity calculation based on Google Translate and Doc2vec
  • 作者:王闻慧
  • 英文作者:WANG Wen-hui;Luoyang Campus, Information Engineering University of PLA Strategic Support Forces;
  • 关键词:Doc2vec ; 谷歌翻译 ; 句子相似度计算 ; 双语句对齐
  • 英文关键词:Doc2vec;;Google Translate;;sentence similarity calculation;;bilingual sentence alignment
  • 中文刊名:DNZS
  • 英文刊名:Computer Knowledge and Technology
  • 机构:战略支援部队信息工程大学洛阳校区基础系;
  • 出版日期:2019-05-25
  • 出版单位:电脑知识与技术
  • 年:2019
  • 期:v.15
  • 语种:中文;
  • 页:DNZS201915096
  • 页数:4
  • CN:15
  • ISSN:34-1205/TP
  • 分类号:230-233
摘要
句子相似度计算在统计机器翻译、基于实例的机器翻译与语料对齐领域有着巨大的研究价值。本文借助于谷歌翻译作为媒介,针对由Word2vec改进而来的表示句子向量的方法——Doc2vec模型,对中英句子相似度计算进行了研究。分别利用谷歌翻译将中文译文进行中文句向量训练及计算与英文译文的英文句向量训练及计算对比分析。实验结果表明,基于Doc2vec的方法在计算句子相似度方面,无论是中文句向量还是英文句向量,其作为句向量表达句子含义的准确性都还有待商榷。
        Sentence similarity calculation has great research value in the fields of statistical machine translation, instance-based machine translation and corpus alignment. This paper uses Google Translate as a favorable medium to study the similarity between Chinese and English sentences based on the Doc2 vec model, which is improved by Word2 vec, which represents the sentence vector. Using Google Translate to use Chinese translation to carry out Chinese sentence vector training and calculation and English sentence vector training and calculation comparison analysis. The experimental results show that the Doc2 vec-based method in terms of calculating sentence similarity, whether it is Chinese sentence vector or English sentence vector, its accuracy as a sentence vector to express sentence meaning is still open to question.
引文
[1]熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报(工程技术版),2015,15(1):43-48.
    [2]王明文,徐雄飞,徐凡,等.基于word2vec的大中华区词对齐库的构建[J].中文信息学报,2015,29(5):76-83.
    [3]唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(06):214-217+269.
    [4]唐亮,席耀一,彭波,等.基于词向量的越汉跨语言事件检索研究[J].中文信息学报,2018,32(3):64-70.
    [5]张剑,屈丹,李真.基于词向量特征的循环神经网络语言模型[J].模式识别与人工智能,2015,28(4):299-305.
    [6]杨阳,刘龙飞,魏现辉,等.基于词向量的情感新词发现方法[J].山东大学学报(理学版),2014,49(11):51-58.
    [7]杨宇婷,王名扬,田宪允,等.基于文档分布式表达的新浪微博情感分类研究[J].情报杂志,2016,35(2):151-156.
    [8]贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95.
    [9]姜天文,秦兵,刘挺.基于表示学习的开放域中文知识推理[J].中文信息学报,2018,32(3):34-41.
    [10]刘知远,孙茂松,林衍凯,等.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700