爬虫
文章平均质量分 78
孤城炎
这个作者很懒,什么都没留下…
展开
-
爬虫与反爬
反爬策略 通过user-agent客户端标识来判断是不是爬虫 解决方法: 封装请求头:user-agent 封ip 解决方法: 设置代理ip 通过访问频率来判断是否是非人类请求 解决方法: 设置爬取间隔和爬取策略 验证码 解决方法: 识别验证码 数据通过前端js异步获取 解决方法: 1. 通过selenium+phantomjs来获取数据 2. 找到数据来源的接口...原创 2020-02-17 21:50:10 · 99 阅读 · 0 评论 -
headers信息修改
每次复制头信息都要花时间去改,比较浪费时间,写段代码来完成这项任务: def change_headers(headers): headers = headers.split('\n') result = {} for i in headers: i = i.split(': ') result[i[0]] = i[1] retur...原创 2020-02-15 11:08:07 · 869 阅读 · 0 评论 -
xpath
什么是xml? 定义: 可扩展标记性语言(EXtensible Markup Language) 特定: xml是具有自描述特性的半结构化数据。 作用: xml主要用来传输数据 xml和html的区别 语法要求不同: xml的语法要求更严格 在html中不区分大小写,在xml中严格区分 在html中,有时不严格,如果上下文清楚地显示出段落或者列表键在何处结尾,那么你可以省略或者标记。在x...原创 2020-02-14 21:49:40 · 145 阅读 · 0 评论 -
re模块
re模块的使用 import re pattern = re.compile( r'正则表达式', # r表示按原样输出 '匹配模式', # 可以不指定 ) 正则匹配模式: re.S # 可以匹配换行符 re.I # 忽略大小写 pattern对象的方法: match, search, findall,finditer 使用方法: match = pattern.matc...原创 2020-02-13 20:27:49 · 115 阅读 · 0 评论 -
json数据处理
json数据处理 import json json.loads('json数据') # 转换为python的list或者字典 json.dumps('python的list或者字典') # 转换为json字符串 在response中可以直接使用json方法进行转换 import requests response = requests.post(url=url, headers=heade...原创 2020-02-11 20:59:10 · 85 阅读 · 0 评论 -
requests模块
requests模块 requests模块的get方法 response = requests.get( url='url地址', headers = 请求头字典, params=请求参数字典, ) requests模块的post方法 response = requests.post( url='url地址', headers = 请求头字典, p...原创 2020-02-11 20:57:50 · 99 阅读 · 0 评论