98kr-CSDN博客

原创 Python-ppt模板批量下载

基于Python 爬虫批量下载ppt模板githubhttps://www.cnblogs.com/w0000/p/15106500.htmlimport requestsfrom lxml import etreeimport timeimport osdef creatPath(path): if not os.path.exists(path): print("Creat path") os.makedirs(path)if __name_.

2021-08-05 23:41:31 379

原创 Python爬虫 - wallhaven任意页面下的壁纸批量下载

基于Python 任意页面下的壁纸批量下载githubMaxpagenum 爬取页数fpath 保存路径url 基础地址import requestsimport reimport timeimport os#爬取页数Maxpagenum = 10Sleeptime =0.1def creatPath(path): if not os.path.exists(path): print("Creat path") os.makedirs(pa.

2021-08-05 23:39:54 1462

原创 Python selenium

seleniumselenium 基于浏览器自动化的一个模块便携的获取网站中动态加载的数据（Ajax）便携实现模拟登录Google浏览器驱动程序下载路径确定版本映射关系实例化浏览器对象传入浏览器驱动程序bro = webdriver.Chrome(’./chromedriver.exe’)编写自动操作代码基于浏览器自动化的操作代码发起请求：get(url)标签定位: find系列方法标签交互: send_keys('xxx)执行js程序:

2021-08-05 23:37:39 164

原创 Python 模拟验证码登陆

Python 模拟验证码登陆获取登录请求打开preserve log点击登录，获取登录请求(post)验证码地址可变爬取页面验证码地址，获取验证码内容将data进行post请求验证码地址不变，而内容随机变化设置session进行验证码的get请求并下载图片进行识别得到验证码的识别结果，再利用这个sesson进行post请求，把账号密码和验证码识别结果的表单数据进行post从而模拟登录如果请求中产生了cookie，则该cookie会被自动存储/携带在该session对

2021-08-05 23:33:59 935

原创 Python 爬虫数据解析

https://www.cnblogs.com/w0000/p/15097633.html数据解析response 方法content 返回二进制响应数据text 返回字符串json() 返回json对象正则re.S 单行匹配re.M 多行匹配img_src_list = re.findall(ex,img_data,re.S)bs4数据解析数据解析的原理1.标签定位2.提取标签、标签属性中存储的数据值####bs4数据解析的原理：1.实例化一个Beautifu

2021-08-05 23:26:43 95

原创 Python 爬虫 - 获取百度关键字搜索内容

Python 爬虫获取百度关键字搜索内容https://www.cnblogs.com/w0000/p/bd_search_page.htmlGithubheaders内的参数,仅有UA时,返回结果不完整,找个request头，增加一些参数。import requestsif __name__ == '__main__': #输入搜索关键字 keyword = input("keyword:") url = 'https://www.baidu.com/s?ie=UT

2021-08-05 23:21:24 2612 1

原创 python获取b站视频封面及弹幕

python网络爬虫利用python获取b站视频封面及弹幕获取弹幕获取封面完整代码利用python获取b站视频封面及弹幕获取弹幕从https://api.bilibili.com/x/v1/dm/list.so?oid=286266029k可以看到弹幕列表该网页为xml格式，利用etree.parser，xpath解析获取弹幕列表从https://api.bilibili.com/x/player/pagelist?bvid=BV1eh41127Ma&jsonp=jsonp中找到了oid

2021-01-28 16:22:39 819 1

weixin_44210565的博客