摘要
新词发现是自然语言处理中的一项重要研究工作,本文先对corpus进行最小粒度分词,采用N-gram思想将最小粒度分词结果重组,最后给出基于边界自由度和内部凝固度结合停用词库的新词发现方法,并在大规模语料库上进行实验,验证本文新词发现算法的可行性,同时结合并行计算方法,大大缩短实验时间,提高了整个系统的效率和性能。
引文
[1]Sproat R,Emerson T.The first international Chinese word segmentation Bakeoff[C]//Sighan Workshop on Chinese Language Processing.Association for Computational Linguistics,2003:133-143.
[2]张海军,史树敏,朱朝勇,等.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10.
[3]李明.针对特定领域的中文新词发现技术研究[D].南京航空航天大学,2012.
[4]成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34.
[5]李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304.
[6]周霜霜,徐金安,陈钰枫,等.融合规则与统计的微博新词发现方法[C]//自然语言处理与中文计算会议.2016.
[7]杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报(自然科学版),2016,52(1):35-40.
[8]崔世起.中文新词检测与分析[D].中国科学院计算技术研究所,2006.