why xpath?
网络爬虫四大选择器大概有正则表达式、BeautifulSoup、Xpath、CSS,Bs4总觉得要写很多指令很麻烦,决定学习一门其他的方法。
https://www.cnblogs.com/dcpeng/p/12985344.html推荐了lxml,也就是学习xpath规则。
模板1
scrapy 爬取图片 最基本操作
这个是用css的方法写的,经检验可以爬取成功。这个template给了爬取两点经验:
- 如何设置settings里面的存储路径
- 如何设置pipeline里面的具体存储
之后呢,我觉得可以用这个做来练手改成xpath路径的练习。
更改前
def parse(self, response):
item = MeizituItem()
srcs = response.css('.article img::attr(src)').extract() # css提取
print(srcs)
item['image_urls'] = srcs
yield item
def parse(self, response):
item = MeizituItem()
srcs = response.x