目录标题
在使用xpath.extract()去出来有空格
- xpath.extract_first().strip()
crawlspider 的使用 代码在 f005中
-
创建爬虫
- scrapy genspider -t crawl 爬虫名 allow_domain
-
指定 start_url ,对应的响应会进过 rules 提取 url 地址
-
完善 rules, 添加Rule
Rule(LinkExtractor(allow=r'info/1055/\d+\.htm'), callback='parse_item',follow=True),
- LinkExtractor : 链接提取器, 提取url地址
- allow : 正则匹配url地址
- callback : 提取出来url地址的response会交给callback处理
- follow : 当前url地址的响应是否重新经过rels来提取url地址
- callback 和 follow 如果不使用的话可以删掉
- 匹配链接可以使用xpath/css等,只要写到类的一层就可以了
- restrict_css
- restrict_xpath
-
注意点
- url 地址不完整, crawlspider 会自动补充完整之后在请求
- parse 函数不能定义, 他有特殊的功能要实现
- callback : 链接提取器提取出来的url地址对应的响应交给他处理
- follow : 链接提取器提取出来的url地址对应的响应是否继续被rules来过滤
判断代理ip是否可用
- 使用request发送请求
下载中间件 代码在f005中
- 需要自己定义的方法有:
-
process_request(request,spider)
- 添加代理池,USER_AGENT池
- 即在发送请求的时候调用
- 不用返回数据,即不用return
-
process_excepyion(request,exception,spider)
- 发生异常后处理异常
- 要有返回值(request),返回None、request、response对象,返回None时,会经过其他中间件
-
process_response(request,response,spider)
- 当下载器完成http请求,传递响应给引擎时调用
- 要有返回值(return),返回request、response对象,一般返回response
-
scrapy模拟登陆 f006
-
直接携带cookie
-
找到发送post请求的url地址,带上信息,发送请求
- settings种有一个参数为COOKIES_ENABLED,会保存上一次的cookie然后下一次请求会带上
- 查看 cookies 的传递过程可以在settings中将COOKIES_DEBUG设置成True
-
strat_url请求是strat_request方法来做的
- 模拟登陆的时候可以重新定义一个start_request方法来做登陆
-
scrapy 发送 post 请求
- scrapy.FromRequest()
- post url地址
- 回调函数 callback
- 数据 formdata
- scrapy.FormRequest.from_response
- 如果 post
- scrapy.FromRequest()