爬虫解析器之xpath学习

最新推荐文章于 2021-02-06 17:50:30 发布

kou5321

最新推荐文章于 2021-02-06 17:50:30 发布

阅读量225

点赞数

本文链接：https://blog.csdn.net/weixin_43660619/article/details/107108308

版权

文章目录

why xpath?
模板1
很好的学习资料
试着使用xPath Helper
排坑经验

why xpath?

网络爬虫四大选择器大概有正则表达式、BeautifulSoup、Xpath、CSS，Bs4总觉得要写很多指令很麻烦，决定学习一门其他的方法。
https://www.cnblogs.com/dcpeng/p/12985344.html推荐了lxml，也就是学习xpath规则。

模板1

scrapy 爬取图片最基本操作
这个是用css的方法写的，经检验可以爬取成功。这个template给了爬取两点经验：

如何设置settings里面的存储路径
如何设置pipeline里面的具体存储

之后呢，我觉得可以用这个做来练手改成xpath路径的练习。
更改前

    def parse(self, response):
        item = MeizituItem()
        srcs = response.css('.article img::attr(src)').extract()  # css提取
        print(srcs)
        item['image_urls'] = srcs
        yield item

    def parse(self, response):
        item = MeizituItem()
        srcs = response.x

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kou5321

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫解析器之xpath学习

文章目录why xpath?template1why xpath?网络爬虫四大选择器大概有正则表达式、BeautifulSoup、Xpath、CSS，Bs4总觉得要写很多指令很麻烦，决定学习一门其他的方法。https://www.cnblogs.com/dcpeng/p/12985344.html推荐了lxml，也就是学习xpath规则。template1scrapy 爬取图片最基本操作这个是用css的方法写的，经检验可以爬取成功。这个template给了爬取两点经验：如何设置settin
复制链接

扫一扫