最近在尝试利用scrapy进行爬虫,requests我先放放,都要了解嘛~,xpath我是会用一点的,但我特喜欢用正则表达式,不喜欢用xpath,最近老在研究如何在scrapy中使用正则。
1、推荐的方法:在parse函数使用response.xpath().re()或者response.css().re(),返回的是符合条件的字符串的列表。
2、要import re后利用xpath或者css选择器筛选后利用正则的方法
还有一种方法:也可以先传回参数后再在pipelines.py中更改