基于新词发现和并行计算的中文分词改进算法

作者：王振 ; 杨国锋 ; 陈天池
关键词：中文分词 ; 新词发现 ; 并行计算 ; N-gram
中文刊名：TXWL
英文刊名：China New Telecommunications
机构：中国电信安徽分公司数据运营与业务管理中心;
出版日期：2019-03-20
出版单位：中国新通信
年：2019
期：v.21
语种：中文;
页：TXWL201906108
页数：3
CN：06
ISSN：11-5402/TN
分类号：135-137

摘要

新词发现是自然语言处理中的一项重要研究工作,本文先对corpus进行最小粒度分词,采用N-gram思想将最小粒度分词结果重组,最后给出基于边界自由度和内部凝固度结合停用词库的新词发现方法,并在大规模语料库上进行实验,验证本文新词发现算法的可行性,同时结合并行计算方法,大大缩短实验时间,提高了整个系统的效率和性能。

引文

[1]Sproat R,Emerson T.The first international Chinese word segmentation Bakeoff[C]//Sighan Workshop on Chinese Language Processing.Association for Computational Linguistics,2003:133-143.
    [2]张海军,史树敏,朱朝勇,等.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10.
    [3]李明.针对特定领域的中文新词发现技术研究[D].南京航空航天大学,2012.
    [4]成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34.
    [5]李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304.
    [6]周霜霜,徐金安,陈钰枫,等.融合规则与统计的微博新词发现方法[C]//自然语言处理与中文计算会议.2016.
    [7]杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报(自然科学版),2016,52(1):35-40.
    [8]崔世起.中文新词检测与分析[D].中国科学院计算技术研究所,2006.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700