提取大的条目://li[contains(@class," j_thread_list clearfix")]
python安装路径:C:\Users\17809\AppData\Local\Programs\Python\Python36
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题
越过反爬用requests.post请求,把模仿的ajax请求传过去,跟get用法一样
用xpath需要用etree.HTML对response.text进行处理,正则不用
类型是字符串的用re正则表达式,是json的可以直接按字典或列表处理
split分割字符串,分割后的是一个列表
由于requests模块是一个不完全模拟浏览器行为的模块,只能爬取到网页的HTML文档信息,
无法解析和执行CSS、JavaScript代码,因此需要我们做人为判断;
selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作
,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;
由于selenium解析执行了CSS、JavaScript所以相对requests它的性能是低下的;
滚动下拉模仿处理ajax,跟requests请求ajax两种方式
Redis,、MongoDB
scrapy中yield的功能:
1、 yield req
提交请求对象,
2、 yield item
提交数据给pipeline
rules过滤情况解决,在settings中添加:
SPIDER_MIDDLEWARES = {
‘scrapy.spidermiddlewares.offsite.OffsiteMiddleware’: None,
}
在item里面,然后用yield,指定输出红色信息
正则替换:
import re
x=‘http://www.ipyear.cn/copyright/list_20161031.html’
num=re.sub(’.html’,’_2.html’,x)
print(num)
有些通过点击才能实现的js代码以及数据爬取,用selenium模拟爬取
find-elements找不到不会报异常
dupefilter 记录的爬过的url数据
-i https://pypi.tuna.tsinghua.edu.cn/simple
scrapy是通过Twiseted异步网络框架来提高下载速度
手机app数据爬取:
airtest工具,类似于selenium,来进行自动化交互的,而folder抓包工具则是类似于从json中爬取数据
m.group() == m.group(0) == 所有匹配的字符(即匹配正则表达式整体结果)
group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。
m.groups() 返回所有括号匹配的字符,以tuple格式。m.groups() == (m.group(0), m.group(1), …)
2. 没有匹配成功的,re.search()返回None
- 当然正则表达式中没有括号,group(1)肯定不对了。
爬虫字体设置反爬思路:
首先找到是哪一种字体,可以用正则提取出来,进行下载,然后转化为xml文件,从xml文件中的
name属性(也可以通过正则来找)来找到字体中的一一对应的映射关系
数据分析:
numpy:用于对提取出来的数据进行数据的整理
matplotlib:用户画图来使数据显示更加易懂
列表pop按下标删除,remove按值删除
jupyter notebook
爬取数据调试js代码的时候页面总是乱跳说明是有location的js代码,可以吗源码复制下载,删除点location,在查看
在::before里面隐藏文本内容,一般使用了addrule或insertrule方法
scrapy乱国家再度跳转是通过scrapy.Request
with open 用a是一只下载,w是覆盖下载
scrapy是异步采集入库的,采集小说如何按章节顺序入库呢
yield scrapy.Request(content_url,callback=self.parse_content,meta={‘charter_name’:charter_name})#传参
charter_name=response.meta[‘charter_name’]#接受参数
scrapy通过spider_redis来进行分布式爬虫
scrapy项目部署:在每台服务器上安装 scrapyd,并开启 scrapyd 服务
在开发爬虫的客户端安装上 scrapyd 的客户端 scrapyd-client
通过 scrapyd-client 把丌同网站的爬虫发送到丌同的服务器,使别的主机运行spiderweb来作为云服务器
有时候看着是字典或者列表,但类型是字符串,就需要用json。loads反序列化,变成字典或者列表
直接就是response。json()