基于Web公共舆情自动分析及预警关键技术研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着网络的普及和网民人数的增加,网络舆情已经成为了公共舆情的重要组成部分。同时,网络舆情和传统公共舆情相比,具有数据量大、突发性强、来源分散、影响范围大等特点。因此,网络舆情的监控引导十分重要,但是目前网络舆情的监控手段多数是采用人工监控方式。为了提高舆情监控效果,迫切的需要采用自动分析及预测手段及时地了解网络舆情的动态,掌握其发展趋势,以便于相关部门进行及时干预。
     本文首先研究了现有舆情分析预测技术和相关舆情分析系统,总结了目前舆情分析预测的一般模型,将舆情分析预测模型分为热点舆情发现模型和热点舆情预测模型两部分。经研究发现模型有以下不足之处:热点舆情发现模型中的文本特征表示阶段,存在着只处理报道内容的局限性;在舆情数据采集和处理方面,对多来源数据同等对待;其次,在热点舆情预测模型建立过程中,对训练数据的分类不够合理。
     针对以上几点,分别提出改进。首先,将Web意见挖掘应用在文本结构化阶段,利用SO-PMI和K-Means算法构建Web意见词典,量化评论意见,提出了评论内容向量和评论意见向量,完善了舆情文本表示和结构化;其次,提出了舆情来源分析模型补充舆情数据采集和处理的不足之处。·最后,利用C5.0决策树算法将训练数据按照热点舆情意见倾向的极性和强度分类,对各类舆情数据分别建立BP神经网络热点舆情预测模型,改善了模型的预测精度。实验分析表明,改进模型降低了热点舆情发现的错检率和漏检率,同时降低了热点舆情发展趋势预测的平均绝对百分比误差(MAPE)。
With the popularization of the internet and the increase in the number of internet users, the internet public opinion has become an important part of the public opinion. At the time, compared with the traditional public opinion, the internet public opinion has the features of being large in number, abrupt in occurrence, scattered in sources and influential in many field. The inspection and piloting of the internet public opinion is very important while the monitoring method adopted most is human monitoring at present. In order to improve the monitoring effect, it is in desperate need to introduce automatic analysis and forecasting method to keep track of the tendencies of the internet public opinion. In this case, it is easier for related departments to intervene on time.
     This paper first studies the present technologies adopted in the public opinion forecasting and analysis and the related system for public opinion analysis and summarizes the general model. This paper divides the model into two parts:one is the model for the hot issue detection and the other is for the hot issue forecast. Improvements targeting the two parts are suggested. Firstly, on the basis of online comment's importance in web public opinion, this paper applies web opinion mining in the public opinion forecasting and analysis model. By using web opinion dictionary, comment is quantized; meanwhile, review details vector and opinion vector are proposed to optimize the original character representation of report. In the original model, multisource data was equally treated, this paper put forward public opinion source analysis model to resolve the problem. Secondly, C5.0 decision tree algorithm and BP neural network algorithm are combined to structure the classification and prediction model. The model forecasts the public opinion development tendency by different opinion polarity and strength and improves the shortcoming of unclassified forecast. Finally, experiment demonstrates the improved model lower the fallout ratio and omission factor, at the same time, MAPE in public opinion development tendency is reduced.
引文
[1]许鑫 章成志 互联网舆情分析及应用研究情报科学第26卷第8期2008年8月1195页-1204页
    [2]刘云 程辉 沈波等一种基于时间序列的网络舆情预测方法中国200810226293.X2009.3.25
    [3]王丫 网络新闻流中热点事件识别与跟踪算法的改进与验证[学位论文]哈尔滨燕山大学2007
    [4]宋嘎子 网络热点舆情的发现及预警模型研究[学位论文]广州暨南大学2010
    [5]喻国明 中国社会舆情年度报告(2011)人民日报出版社2011年5月207页-403页
    [6]龚海军 网络热点话题自动发现技术研究[学位论文]武汉华中师范大学2008
    [7]张珏 网络舆情预测模型与平台的研究[学位论文]北京北京交通大学2009
    [8]刘云 程军军张振江等网络舆情预测方法及系统中国201010568299.2 2011.04.13
    [9]谷峰 中文网页层次分类研究[学位论文]厦门华侨大学2007
    [10]Jiawei Han, Micheline Kamber, Data Mining Concepts and Techniques, the second edition, China Machine Press 2001.11 Page 290-Page 297
    [11]程显毅 朱倩 文本挖掘原理科学出版社2010年11月2页-19页
    [12]Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval. ACM, New York, Addison Weley,1999
    [13]The 2004 Topic Detection and Tracking (TDT2004) Task Definition and Evaluation Plan www.nist.gov/itl
    [14]殷风景 面向网络舆情监控的热点话题发现技术研究[学位论文]北京国防科学技术大学2010
    [15]薛薇 陈欢歌Clementine数据挖掘方法及应用电子工业出版社2010年9月180页-182页
    [16]时达明Blog热点话题发现及其作者声誉度研究[学位论文]大连大连理工大学2007
    [17]罗亚平 王枞 周延泉基于关注度的热点话题发现模型 中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集武汉2007年
    [18]姚天昉 程希文 徐飞玉文本意见挖掘综述中文信息学报第22卷第31期2008年5月72页-80页
    [19]张鹏中文意见挖掘的特征层次构建和抽取算法[学位论文]重庆重庆大学2010
    [20]李存青中文意见挖掘中的特征词提取以及情感倾向分析[学位论文]重庆重庆大学2010
    [21]熊平数据挖掘算法与Clementine实践清华大学出版社2011年4月75页-87页
    [22]周云倩 陈信凌 广电媒体网站评价的量化研究当代传播2010年第01期2010年1月62页-64页
    [23]马伟瑜 基于改进的PageRank的网页信息可信度评估方法研究[学位论文]保定河北大学2011
    [24]罗亚平 基于用户浏览行为的网络热点话题发现模型研究[学位论文]北京北京邮电大学2008
    [25]Gooseeker官方网站http://www.gooseeker.com/cn/node/product/front
    [26]吕晓玲 谢邦昌 数据挖掘方法与应用中国人民大学出版社2009年5月 423页-453页
    [27]王巍 杨武 齐海风 基于多中心模型的网络热点话题发现算法南京理工大学学报(自然科学版)第33卷第4期2009年8月422页-426页
    [28]金珠 林鸿始 赵品 基于HowNet的话题跟踪及倾向性分类研究情报学报24(5)2005年10月
    [29]齐海凤 网络舆情热点发现与事件跟踪技术研究[学位论文]哈尔滨哈尔滨工程大学2008
    [30]徐国祥 统计预测和决策上海财经大学出版社2005年9月29页-54页
    [31]庞素琳 巩吉璋 C5.0分类算法及在银行个人信用评级中的应用系统工程理论与实践第29卷第12期2009年12月95页-104页
    [32]李强 创建决策树算法的比较研究—ID3,C4.5,C5.0算法的比较甘肃科学学报第18卷第4期2006年12月85页-87页
    [33]侯锋 王传廷 李国辉 网络意见挖掘_摘要与检索研究综述计算机科学第36卷第7期2009年7月15页-19页
    [34]陈安 陈宁 周龙骧 等数据挖掘技术及应用第二版科学出版社2007年7月113页-139页
    [35]聂璐搜索引擎在网络信息挖掘中应用电脑知识与技术第5卷第27期2009年9月7736页-7737页

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700