摘要
在这个高速发展的大数据时代,各种各样的文本充斥着整个互联网,而这些文本的质量也是鱼龙混杂,如何从中提取出重要信息是个很好的问题。一篇文章的主要内容主要由其关键字体现,如果我们能够提取关键字并将其用图片的形式展示出来,那会让人一目了然,并且节省阅读的时间。"词云"就是将文章中出现频率比较高的词提取出来并以图片的形式展现,同时可以过滤掉大量无用信息,使得文章阅读者只要扫一眼"词云"就可以领略文章的主旨。本文将介绍提取关键词的算法并利用python库进行实验,提取文章的关键词并进行词云的生成展示。
引文
[1]甘蓉.中文分词交叉型歧义消解算法[J].西华大学学报(自然科学版),2018,37(06):32~36.
[2]于韬,王洪岩.基于TF-IDF算法的文本信息提取[J].科技视界,2018(16):117~118.