摘要
随着信息技术的发展,人们在网络上的交流变得十分的频繁,很多用户选择在特定的贴吧分享自己的信息资源,其他用户如果感兴趣则会去查看并下载,但是每个帖子里的资源可能有很多,单个去下载会十分的繁琐,本文使用Python设计的程序,通过模拟登陆,把目标帖子中的百度云链接以及提取码爬取下来,之后利用Selenium2自动的把每个链接内的文件下载到指定目录中,实现快速下载,减少重复操作,提高效率。
引文
[1]李保国.基于聚类与LDA的新闻评论主题挖掘研究[D].武汉:武汉纺织大学,2016.
[2]陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016(9):97-99.
[3]赵丽娜,李伟,康犇,张凯.基于Python爬虫的借阅数据获取[J].北华航天工业学院学报,2018,28(4):61-62.
[4]潘巧智,张磊.浅谈大数据环境下基于Python的网络爬虫技术[J].网络安全技术与应用,2018(5):65.
[5]李瑞,徐家喜.基于selenium2的自动化测试系统的设计和实现[J].福建电脑,2018(7):30.