基于Python的百度贴吧资源获取的设计和实现

作者：刘焱昕
关键词：百度 ; Python ; Selenium2
中文刊名：WXXJ
机构：山西财经大学;
出版日期：2018-11-15
出版单位：计算机产品与流通
年：2018
语种：中文;
页：WXXJ201811089
页数：1
CN：11
ISSN：12-1276/TP
分类号：98

摘要

随着信息技术的发展,人们在网络上的交流变得十分的频繁,很多用户选择在特定的贴吧分享自己的信息资源,其他用户如果感兴趣则会去查看并下载,但是每个帖子里的资源可能有很多,单个去下载会十分的繁琐,本文使用Python设计的程序,通过模拟登陆,把目标帖子中的百度云链接以及提取码爬取下来,之后利用Selenium2自动的把每个链接内的文件下载到指定目录中,实现快速下载,减少重复操作,提高效率。

引文

[1]李保国.基于聚类与LDA的新闻评论主题挖掘研究[D].武汉:武汉纺织大学,2016.
    [2]陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016(9):97-99.
    [3]赵丽娜,李伟,康犇,张凯.基于Python爬虫的借阅数据获取[J].北华航天工业学院学报,2018,28(4):61-62.
    [4]潘巧智,张磊.浅谈大数据环境下基于Python的网络爬虫技术[J].网络安全技术与应用,2018(5):65.
    [5]李瑞,徐家喜.基于selenium2的自动化测试系统的设计和实现[J].福建电脑,2018(7):30.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700