智能终端应用采集与分析系统的设计与实现
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着移动互联网的快速发展,移动智能终端也得到了人们更多的关注,而其快速发展的一个重要体现就是移动互联网时代无穷无尽的各类应用,它们已经渗入到我们生活的方方面面。而由于智能终端本身的开放性、灵活性,以及这些应用数量的庞杂,若想维护一个健康、稳定的互联网环境,对于互联网信息安全工作者或政府相关部门来说,对这些智能终端上的第三方应用进行统一的宏观监测和管理是十分有意义的。因此,针对以上需求,本文设计并实现了一个智能终端应用采集与分析系统,对大量的应用提供多样的监测功能。系统的设计目标为将智能终端第三方应用监测的基本操作(数据采集、存储等),以及业务流程(查询、配置、统计分析等)系统化、集成化、自动化。主要包括以下几个方面的工作:
     1.对智能终端应用网站上面的应用信息的采集及格式化存储。该部分对目标网页的页面结构以及系统的需求进行分析后,设计了相应的采集步骤及具体算法,使用非关系型数据库进行存储,并考虑了整个采集及存储模块的可扩展性。
     2.针对互联网上用户对商品评分与评论内容不符的现象,使用中科院计算所的情感分析工具Sentifier对采集下来的应用评论信息进行情感分析实验,从文本情感的角度对该问题起到了一定的“纠正”作用,并将该模块融合进了系统的功能中。
     3.在以上工作的基础上,设计并开发了一个B/S架构的系统界面,实现了多角度的应用查询、统计分析等功能;并通过跨语言接口THRIFT调用一个数据检索服务来保证系统性能。
With the rapid development of mobile Internet, mobile intelligent terminal also got people more attention, and an important reflect of this is the innumerable applications of mobile Internet age, which has penetrated into every aspect of our lives. And due to the intelligent terminal itself's features of open and flexible, and the number of these applications, it is very meaningful to have a unified macroscopic monitoring and management of the third party applications for the Internet information security workers or relevant government departments to maintain a healthy and stable Internet environment.
     Therefore, this paper designs and implements a intelligent terminal applications'collection and analysis system, the goal of which is to
     make the basic operation of the monitoring for the intelligent terminal third party applications(data acquisition, storage, etc.), as well as business process (inquiry, configuration, statistical analysis, etc.) systematic, integration and automation. Mainly includes the following several aspects:
     1. The collection and storage of the application's information on related websites. After analyse the structure of the target web page and the demand of system, this part design the corresponding collection procedures and specific algorithm, using a unrelational database for storage, and also consider the expansibility.
     2. According to the phenomenon of inconformity between the commodity's mark and comment from userson Internet, we use a sentiment analysis tool,"sentifier", to experiment on the applications' comments to resolve this problem from the point of view of text emotion, and also integrate this module into the system.
     3. On the basis of the above work, we design and develop a system interface which based on B/S structure, realize various functions including query and statistical analysis; and through the cross-language interface, THRIFT, we call a data retrieval service to ensure the system's performance.
引文
[1]宋维《浅析移动互联网》 《中小企业管理与科技》2010年24期
    [2]郭德英,方春东《移动互联网中的智能终端研究》 《中兴通讯技术》2009年第4期
    [3]智能终端和移动互联网成3G业务快速发展推动力http://labs.chinamobile.com/news/66428
    [4]智能终端前景展望http://labs.chinamobile.com/mblog/73551_171133
    [5]落红卫《智能终端:安全问题不容忽视》 《中国新通信》2011年17期
    [6]黄川林《基于Internet的ICAI系统研究与设计》 《哈尔滨工程大学》2005
    [7]陈真《嵌入式Web服务器的远程监控设计与实现》 《洛阳理工学院学报自然科学版》2011年21卷1期
    [8]HTTP http://baike.baidu.com/view/1628025.htm?fromId=9472
    [9]HTTP应用http://www.w3.org/html/
    [10]javascript http://www.ijavascript.cn
    [11]css http://baike.baidu.com/view/3033527.htm?fromId=15916
    [12]肖军等《嵌入式HTTP服务器的设计与实现》 《科技资讯》2008年32期
    [13]宋培彦等《一种基于C#正则表达式的汉语文本信息检索方法》 《现代计算机:下半月版》2009年12期
    [14]BBS姚晓娜《热点话题挖掘与观点分析》大连海事大学2008
    [15]张柱山《基于聚类分析的网络论坛热点话题检测》哈尔滨工业大学2010
    [16]孙胜平《中文微博客热点话题检测与跟踪技术研究》北京交通大学2011
    [17]杨靖涛,张国平《浅析对网络热点话题的发现与识别研究》解放军通信指挥学院2009
    [18]张志轩《互联网热点话题的数据采集及数据集建立》北京邮电大学2011
    [19]李恒训 《网络论坛采集及热点话题发现研究》首都师范大学2011
    [20]crontab. http://baike.baidu.com/view/1229061.htm
    [21]徐娟娟等《NOSQL在WEB日志分析中的应用》《中国新技术新产品》2011年10期
    [22]mysql http://database.51cto.com/art/200811/98728.htm
    [23]范凯《NoSQL数据库综述》 《程序员》2010年6期
    [24]mongodb http://www.cnblogs.com/lipan/archive/2011/03/08/1966463.html
    [25]mongo php driver http://ext.js2.iteye.com/blog/1315227
    [26]mongo C++ http://blog.sina.com.cn/s/blog_59bc06c40101ak2u. html
    [27]Kristina Chodorow Michael Dirolf. MongoDB:The Definitive Guide.人民邮电出版社2011-5-1
    [28]廖闻剑《基于改进TF_IDF的文本信息热点话题发现》武汉邮电科学研究院2009
    [29]庞海杰《面向文本情感分析的商品评价信息检测》青岛滨海学院2012
    [30]时达明,林鸿飞《基于内容相关度和语义分析的Blog热点话题发现》大 连理工大学2011
    [31]杜伟夫,谭松波,云晓春,程学旗.一种新的情感词汇语义倾向计算方法.计算机研究与发展,2009,(10):1713-1721
    [32]唐慧丰,谭松波等《基于监督学习的中文情感分类技术比较研究》 中国科学院2007
    [33]何炎祥,苏雯等《面向网络热点话题的微博文本摘要》武汉大学2011
    [34]Thrift简介.http://www.cnblogs.com/yangwangmingtian/archive/2012/ 09/27/2705344.html
    [35]Thrift架构.http://dongxicheng.org/search-engine/thrift-framework-intro/

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700