用户名: 密码: 验证码:
基于分布式集群的网络浏览行为大数据分析平台构建
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Construction of Network Browse Behavior Data Analysis Platform Based on Distributed Cluster
  • 作者:蔡艳婧 ; 王强 ; 程实
  • 英文作者:CAI Yan-jing;WANG Qiang;CHENG Shi;Nantong University;Jiangsu Vocational College of Business;
  • 关键词:分布式集群 ; 网络 ; 浏览行为 ; 大数据分析 ; 决策树 ; 数据管理
  • 英文关键词:Distributed cluster;;Network;;Browsing behavior;;Big data analysis;;Decision tree;;Data management
  • 中文刊名:中国电子科学研究院学报
  • 英文刊名:Journal of China Academy of Electronics and Information Technology
  • 机构:南通大学;江苏商贸职业学院;
  • 出版日期:2019-01-20
  • 出版单位:中国电子科学研究院学报
  • 年:2019
  • 期:01
  • 基金:江苏省现代教育技术研究课题(2017-R-54131);; 江苏省高职院校教师专业带头人高端研修个人访学资助(2018GRFX022)
  • 语种:中文;
  • 页:5-11
  • 页数:7
  • CN:11-5401/TN
  • ISSN:1673-5692
  • 分类号:TP311.13
摘要
传统基于在线学习的网络浏览行为数据分析平台,缺乏大数据分析能力,无法挖掘和管理用户网络浏览行为,分析效率较低,具有一定的局限性。构建基于分布式集群的网络浏览行为大数据分析平台,平台总体结构由视图层、控制层、服务层、数据持久化层和数据层构成,使用分布式存储系统HDFS与分布式计算系统Spark组成的分布式集群存储和管理网络浏览行为产生的数据,通过数据上传流程将海量网络浏览数据源存储到分布式存储系统HDFS中,在Spark分布集群内运算数据挖掘任务,利用决策树ID3算法准确挖掘网络浏览行为。实验结果说明,所设计平台各项功能符合预期结果,平台进行数据源管理、用户行为分析的整体响应时间比基于在线学习的网络浏览行为数据分析平台低508. 25ms、836. 5ms,说明所设计平台具有较高的网络浏览行为大数据分析效率。
        The traditional network browsing behavior data analysis platform based on online learning lacks the ability of large data analysis,cannot excavate and manage the user's network browsing behavior,and the analysis efficiency is low,and it has certain limitations. The overall structure of the platform consists of view layer,control layer,service layer,data persistence layer and data layer. Using a distributed storage system HDFS and distributed computing system Spark to store and manage the data generated by network browsing behavior,the massive network browsing data source is stored in the distributed storage system HDFS through a data upload process. The data mining task is calculated in Spark distribution cluster and the network browsing behavior is accurately excavated by using the decision tree ID3 algorithm. The experimental results show that the functions of the platform are in line with the expected results. The overall response time of the platform for data source management and user behavior analysis is 508. 25 MS and 836. 5 MS lower than that of the online learning-based online browsing behavior data analysis platform. It shows that the platform has high efficiency of data analysis of network browsing behavior.
引文
[1]刘彦均,封宇,武千惠,等.面向大型装备状态分析的分布式实时数据仓库构建技术[J].计算机集成制造系统,2017,23(10):2324-2333.
    [2]韩媛,王占昌,杨博,等.浅谈基于Postgres-XL的分布式地质大数据集群架构[J].中国矿业,2017,26(s1):83-86.
    [3]杨俊杰,廖卓凡,冯超超.大数据存储架构和算法研究综述[J].计算机应用,2016,36(9):2465-2471.
    [4]吕荣.基于大数据处理技术的AIS应用研究[J].海军工程大学学报,2017,29(4):98-102.
    [5]马梅,刘东苏,李慧.基于大数据的网络舆情分析系统模型研究[J].情报科学,2016,36(3):25-28.
    [6]陈付梅,韩德志,毕坤,等.大数据环境下的分布式数据流处理关键技术探析[J].计算机应用,2017,37(3):620-627.
    [7]桂勋,Yilu,郑永康,等.基于大数据技术的北美FNET/Grid Eye系统设计与实现[J].电力系统自动化,2017,41(10):112-116.
    [8]刘春娥,王占昌,刘荣,等.空间信息集群与大数据承载技术应用[J].中国矿业,2016,25(s1):484-487.
    [9]何秀丽,任智源,史晨华,等.面向医疗大数据的云雾网络及其分布式计算方案[J].西安交通大学学报,2016,50(10):71-77.
    [10]毛国君,胡殿军,谢松燕.基于分布式数据流的大数据分类模型和算法[J].计算机学报,2017(1):161-175.
    [11]季艳,鲁克文,张英慧.海量遥感数据分布式集群化存储技术研究[J].计算机科学与探索,2017,11(9):1398-1404.
    [12]施志明,刘晓宇,万江山,等.大数据时代的分布式智能取证分析技术[J].计算机科学,2016,43(b12):202-204.
    [13]王军,黄杰飞,程勇.基于大数据处理的农业气象灾害分类模型[J].计算机仿真,2017,34(5):353-356.
    [14]马延超,王超,李尚同.基于大数据技术的日志统计与分析系统研究[J].电脑知识与技术,2016,12(34):9-11.
    [15]任华,张玲,叶煜.数字化校园中用户网络行为大数据的分析与监控[J].计算机与数字工程,2017,45(9):1814-1818.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700