摘要
为了汇总、归类和整合网络上杂乱无章的职位信息,设计基于Python的职位画像系统,该系统将招聘网站的招聘页面进行划分.利用Python使用Encode、Xpath和正则表达式的爬取规则设计网页爬取器,获得职位信息.利用My SQL数据库存储爬取的数据,并进行数据清洗及分析,使用Flask和Echarts实现数据可视化.该系统通过图表直观展现职位画像,帮助用户了解目前各个领域职位的需求情况,为用户提供参考,同时从各个维度搭建职位检索功能.测试结果表明,该系统具有高效的爬取效率.
In order to aggregate,categorize,and integrate the disorganized job information on the web,the job portrait system based on python is designed.The system divides the recruitment page of recruitment website,design web crawlers using Python′ s crawl rules which include Encode,Xpath,and regular expressions,then get job information.It uses MySQL database to store crawled data,then cleans and analyzes the data,and visualizes the data with Flask and Echarts.The system visualizes job portraits through charts,helps users understand the current needs of positions in various fields,provides users with a reference.At the same time,the job search function is built from various dimensions.The test results show that the system has efficient crawling efficiency.
引文
[1]郭丽蓉.大数据环境下的网络爬虫设计[J].网络技术,2018(2):50-52
[2]高晨旭,张鹏乐,邢萌,等.互联网大数据在指挥决策中的应用研究[J].指挥控制与仿真,2018,40(6):64-67
[3]孙颖馨,王静,由扬.基于大数据爬虫技术的创新创业竞赛服务平台研制[J].电脑知识与技术,2018,14(30):203-205
[4]卞伟玮,王永超,崔立真,等.基于网络爬虫技术的健康医疗大数据采集整理系统[J].山东大学学报:医学版,2017,55(6):47-55
[5]孙晓,叶嘉麒,唐陈意.基于多策略的新浪微博大数据抓取及应用[J].合肥工业大学学报:自然科学版,2014,37(10):1210-1215
[6]周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134
[7]孔祥芬,蔡峻青,张利寒,等.大数据在航空系统的研究现状与发展趋势[J].航空学报,2018,39(12):1-16
[8]杜小勇,卢卫,张峰.大数据管理系统的历史、现状与未来[J].软件学报,2019,30(1):127-141
[9]李健,杨幸,李俊成.基于大数据技术和特征推荐的就业信息管理平台的设计[J].计算机与现代化,2018(6):103-107
[10]谭镇阳,王璐.基于网络爬虫的招聘信息可视化分析系统[J].信息通信,2018(9):140-142
[11]尹浩翔,华昕玥,王瑞楠,等.基于数据挖掘技术的信息专业相关职位画像研究[J].人才培养,2019(2):88-90