![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 78
孤城炎
这个作者很懒,什么都没留下…
展开
-
爬虫与反爬
反爬策略通过user-agent客户端标识来判断是不是爬虫解决方法: 封装请求头:user-agent封ip解决方法: 设置代理ip通过访问频率来判断是否是非人类请求解决方法: 设置爬取间隔和爬取策略验证码解决方法: 识别验证码数据通过前端js异步获取解决方法: 1. 通过selenium+phantomjs来获取数据 2. 找到数据来源的接口...原创 2020-02-17 21:50:10 · 101 阅读 · 0 评论 -
headers信息修改
每次复制头信息都要花时间去改,比较浪费时间,写段代码来完成这项任务:def change_headers(headers): headers = headers.split('\n') result = {} for i in headers: i = i.split(': ') result[i[0]] = i[1] retur...原创 2020-02-15 11:08:07 · 870 阅读 · 0 评论 -
xpath
什么是xml?定义: 可扩展标记性语言(EXtensible Markup Language)特定: xml是具有自描述特性的半结构化数据。作用: xml主要用来传输数据xml和html的区别语法要求不同: xml的语法要求更严格在html中不区分大小写,在xml中严格区分在html中,有时不严格,如果上下文清楚地显示出段落或者列表键在何处结尾,那么你可以省略或者标记。在x...原创 2020-02-14 21:49:40 · 146 阅读 · 0 评论 -
re模块
re模块的使用import repattern = re.compile( r'正则表达式', # r表示按原样输出 '匹配模式', # 可以不指定 )正则匹配模式:re.S # 可以匹配换行符re.I # 忽略大小写pattern对象的方法:match, search, findall,finditer使用方法:match = pattern.matc...原创 2020-02-13 20:27:49 · 122 阅读 · 0 评论 -
json数据处理
json数据处理import jsonjson.loads('json数据') # 转换为python的list或者字典json.dumps('python的list或者字典') # 转换为json字符串在response中可以直接使用json方法进行转换import requestsresponse = requests.post(url=url, headers=heade...原创 2020-02-11 20:59:10 · 88 阅读 · 0 评论 -
requests模块
requests模块requests模块的get方法response = requests.get( url='url地址', headers = 请求头字典, params=请求参数字典,)requests模块的post方法response = requests.post( url='url地址', headers = 请求头字典, p...原创 2020-02-11 20:57:50 · 107 阅读 · 0 评论