爬虫
98kr
cirenhenlan,shenmodoumeiyouxie
展开
-
python获取b站视频封面及弹幕
python网络爬虫利用python获取b站视频封面及弹幕获取弹幕获取封面完整代码利用python获取b站视频封面及弹幕获取弹幕从https://api.bilibili.com/x/v1/dm/list.so?oid=286266029k可以看到弹幕列表该网页为xml格式,利用etree.parser,xpath解析获取弹幕列表从https://api.bilibili.com/x/player/pagelist?bvid=BV1eh41127Ma&jsonp=jsonp中找到了oid原创 2021-01-28 16:22:39 · 791 阅读 · 1 评论 -
Python-ppt模板批量下载
基于Python 爬虫批量下载ppt模板githubhttps://www.cnblogs.com/w0000/p/15106500.htmlimport requestsfrom lxml import etreeimport timeimport osdef creatPath(path): if not os.path.exists(path): print("Creat path") os.makedirs(path)if __name_.原创 2021-08-05 23:41:31 · 362 阅读 · 0 评论 -
Python爬虫 - wallhaven任意页面下的壁纸批量下载
基于Python 任意页面下的壁纸批量下载githubMaxpagenum 爬取页数fpath 保存路径url 基础地址import requestsimport reimport timeimport os#爬取页数Maxpagenum = 10Sleeptime =0.1def creatPath(path): if not os.path.exists(path): print("Creat path") os.makedirs(pa.原创 2021-08-05 23:39:54 · 1440 阅读 · 0 评论 -
Python selenium
seleniumselenium 基于浏览器自动化的一个模块便携的获取网站中动态加载的数据(Ajax)便携实现模拟登录Google浏览器驱动程序下载路径确定版本映射关系实例化浏览器对象 传入浏览器驱动程序bro = webdriver.Chrome(’./chromedriver.exe’)编写自动操作代码基于浏览器自动化的操作代码发起请求:get(url)标签定位: find系列方法标签交互: send_keys('xxx)执行js程序:原创 2021-08-05 23:37:39 · 145 阅读 · 0 评论 -
Python 模拟验证码登陆
Python 模拟验证码登陆获取登录请求打开preserve log点击登录,获取登录请求(post)验证码地址可变爬取页面验证码地址,获取验证码内容将data进行post请求验证码地址不变,而内容随机变化设置session进行验证码的get请求并下载图片进行识别得到验证码的识别结果,再利用这个sesson进行post请求,把账号密码和验证码识别结果的表单数据进行post从而模拟登录如果请求中产生了cookie,则该cookie会被自动存储/携带在该session对原创 2021-08-05 23:33:59 · 905 阅读 · 0 评论 -
Python 爬虫 数据解析
https://www.cnblogs.com/w0000/p/15097633.html数据解析response 方法content 返回二进制响应数据text 返回字符串json() 返回json对象正则re.S 单行匹配re.M 多行匹配img_src_list = re.findall(ex,img_data,re.S)bs4数据解析数据解析的原理1.标签定位2.提取标签、标签属性中存储的数据值####bs4数据解析的原理:1.实例化一个Beautifu原创 2021-08-05 23:26:43 · 86 阅读 · 0 评论 -
Python 爬虫 - 获取百度关键字搜索内容
Python 爬虫获取百度关键字搜索内容https://www.cnblogs.com/w0000/p/bd_search_page.htmlGithubheaders内的参数,仅有UA时,返回结果不完整,找个request头,增加一些参数。import requestsif __name__ == '__main__': #输入搜索关键字 keyword = input("keyword:") url = 'https://www.baidu.com/s?ie=UT原创 2021-08-05 23:21:24 · 2518 阅读 · 1 评论