Python爬虫
夏了夏天int
这个作者很懒,什么都没留下…
展开
-
vscode使用chromedriver闪退(非版本号的问题)
问题描述:vscode使用chromedriver闪退解决方案:1、网上找到的基本都说是版本号的问题,多次卸载重装各个版本的chromedriver都无法解决闪退问题。2、以为是以前装的插件与chromedriver产生冲突,卸载重装chrome依旧无法解决闪退问题。3、以为是代码的写的有问题,复制网上大佬各种各样的代码也都无法解决闪退4、在cmd中运行代码发现没有报错,这才理解到是vscode的问题。百度发现在代码后加time.sleep()防止闪退。或者在运行时不用f5而是右键在终端中运行p原创 2021-03-14 14:16:39 · 1363 阅读 · 4 评论 -
爬取豆瓣电影(ajax)
抓取加载页面,分析url每刷新一次url的page_start=0,20,40,…import requestsfrom fake_useragent import UserAgentdef getInfo(page): baseurl = r'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&p原创 2021-03-12 21:02:37 · 189 阅读 · 0 评论 -
爬取糗事百科热图
完整代码import requestsimport refrom fake_useragent import UserAgentimport osif not os.path.exists('./qiutu'): os.mkdir('./qiutu')baseurl = 'https://www.qiushibaike.com/imgrank/page/'headers = { 'User-Agent': UserAgent().random}findImgSrc = r'原创 2021-03-11 17:34:57 · 160 阅读 · 0 评论 -
xpath基本使用方法
文章目录解析节点//*表示匹配所有节点查找父节点属性匹配文本获取获取属性值属性多值匹配多属性匹配位序选择节点轴选择解析节点在from lxml import etreetext ='''<div><ul><li class="item-o"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">se原创 2021-03-09 18:54:57 · 216 阅读 · 0 评论 -
爬取猫眼电影Top100榜
文章目录1、分析要抓取的内容2、抓取首页,正则匹配需要的内容猫眼电影网址1、分析要抓取的内容2、抓取首页,正则匹配需要的内容原创 2021-03-09 14:06:44 · 416 阅读 · 3 评论 -
re库实现正则匹配
match()函数match(正则表达式,要匹配的字符串)可以检测这个正则表达式是否匹配字符串。匹配返回的对象有狗肉group()和span()两个方法group()输出匹配到的内容span()输出匹配的范围import re content=r'docker run -p 80:80 kennethreitz/httpbin'result=re.match(r'docker run .*\d+.*ken',content)print(result.group())print(result原创 2021-03-03 14:24:00 · 309 阅读 · 0 评论 -
Prepared Request实现requests像urllib一样对请求进行封装
1、导包from requests import Request, Sessionfrom fake_useragent import UserAgent2、创建参数baseurl = 'http://httpbin.org/post'headers = { 'User-Agent': UserAgent().random}data = { 'name': 'Gauit'}3、创建session对象,用Request将baseurl,data,headers构造Requ原创 2021-03-02 17:07:11 · 328 阅读 · 0 评论 -
requests实现简单文件上传
requests实现简单文件上传import requestsfrom fake_useragent import UserAgentbaseurl = 'http://httpbin.org/post'headers={ 'User-Agent':UserAgent().random}files ={'file':open('E:\\spider\\requests\\history.py','rb')}respones=requests.post(baseurl,files=fil原创 2021-03-02 15:05:20 · 140 阅读 · 0 评论 -
requests处理cookies
respones.cookies调用成功即可获得cookie再用items方法将字典处理成一个个元组输出即可```import requestsfrom fake_useragent import UserAgentbaseurl = 'http://www.baidu.com'headers={ 'User-Agent':UserAgent().random}respones=requests.get(baseurl,headers=headers)print(respones.c原创 2021-03-02 15:27:20 · 148 阅读 · 0 评论