用户名: 密码: 验证码:
基于Python的数据脱敏与可视化分析
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Data Desensitization and Visual Analysis Based on Python
  • 作者:尹诗 ; 陈小奎 ; 师琳
  • 英文作者:YIN Shi-yu;CHEN Xiao-kui;SHI Lin;Anhui University of Science and Technology Institute of Mathematics and Big Date;
  • 关键词:Python ; pandas ; 数据预处理 ; 数据脱敏 ; 数据可视化
  • 英文关键词:Python;;pandas;;data preprocessing;;data desensitization;;data visualization
  • 中文刊名:DNZS
  • 英文刊名:Computer Knowledge and Technology
  • 机构:安徽理工大学数学与大数据学院;
  • 出版日期:2019-02-25
  • 出版单位:电脑知识与技术
  • 年:2019
  • 期:v.15
  • 基金:大学生创新创业训练项目(No.201810361093)资助;; 安徽省大学生大数据创客实验室(2016ckjh075)支持
  • 语种:中文;
  • 页:DNZS201906006
  • 页数:4
  • CN:06
  • ISSN:34-1205/TP
  • 分类号:20-23
摘要
为分析高校教学质量,并对其进行评价,本文基于python语言对教务系统导出的原数据进行处理和分析,主要从数据导入,数据预处理,及数据分析三个层面结合实例进行分析。首先利用tkinter库设计出数据导入的界面;其次阐述数据清洗、分组、集成以及脱敏等数据预处理的常用算法,并结合高校教学评价这一实际案例进行了演示,借助pandas库中的dataframe数据类型实现了对"脏数据"的清洗,以及对教师姓名的脱敏;最后利用matplotlib库对处理好的数据进行数据可视化,并结合所得图像对各专业班级及教师的学习和教学状况进行分析与评价。通过本文的数据处理,实现了对教师姓名的脱敏,保护了教师的隐私,并利用图形直观地反映出各教师和班级近几年的成绩分布,使得高校绩效考核更加的方便。
        In order to analyze the quality of college teaching and evaluate it, this paper based on Python language to process and ana?lyze the original data derived from the educational system, mainly from three aspects: data import, data preprocessing, and data analysis. Firstly, the tkinter library is used to design the interface of data import. Secondly, the common algorithms for data prepro?cessing such as data cleaning, grouping, integration and desensitization are described. The actual case of college teaching evalua?tion is demonstrated. The dataframe data in the pandas library is used. The type realizes the cleaning of"dirty data"and the desen?sitization of the teacher's name. Finally, the matplotlib library is used to visualize the processed data, and the obtained images are used to analyze the learning and teaching status of each professional class and teachers. Through the data processing of this paper,the desensitization of the teacher's name is realized, the privacy of the teacher is protected, and the distribution of the scores of teachers and classes in recent years is visually reflected by the graph, which makes the performance appraisal of the university more convenient.
引文
[1]陈天莹,陈剑锋.大数据环境下的智能数据脱敏系统[J].通信技术,2016,49(7):915-922.
    [2]张治斌,刘威.浅析数据挖掘中的数据预处理技术[J].数字技术与应用,2017(10):216-217.
    [3]孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018,28(5):1-4.
    [4]李俊华.基于Python的数据分析[J].电子技术与软件工程,2018(17):167.
    [5]叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012,48(14):121-129.
    [6]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.
    [7]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.
    [8]刘勘,周晓峥,周洞汝.数据可视化的研究与发展[J].计算机工程,2002(8):1-2+63.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700