爬虫零碎记录 xpath 注意事项 text()[x]可以取下标

VIP文章 weixin_65922074

已于 2022-08-24 08:36:55 修改

阅读量543

点赞数

分类专栏：爬虫 python学习札记文章标签：开发语言 python 爬虫

于 2022-08-22 20:11:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65922074/article/details/126472393

版权

1. refer：

如果要实现翻页，可以在for循环外面设置第一页的refer=url主页

然后在for循环内部设置第二页的refer=上一页的URL

2. xpath

html_data.xpath('表达式')

表达式外用单引号

因为表达式内html的内容均为双引号

xpath中的//表示跨节点，/表示不跨节点，元素之间的过渡

@ 取属性如 //div/a/@href

text（）取内容 //div/a/text()

xpath的下标是从1开始，不是从0开始，last（）表示最后一个元素

text（)后面也可以跟下标，如text（）[2]，表示取text（）内容的第二部分

3.etree.html()得到的是一个etree对象

一般情况下可以直接像字符串一样调用和处理xpath语法得到的列表中的元素

4.re.findall（），xpath（），strip（）去首尾空格，replace（）字符串替换等，各种函数返回的都是新的对象，原对象对函数的调用不会更改原对象的内容

变量 = 原对象.replace（） ————这个过程中，原对象不变

必须要将函数的调用赋值给一个变量（可以是新的变量，也可以是自身，但是都必须要赋值，然后再调用

最低0.47元/天解锁文章

weixin_65922074

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫零碎记录 xpath 注意事项 text()[x]可以取下标

4.re.findall（），xpath（），strip（）去首尾空格，replace（）字符串替换等，各种函数返回的都是新的对象，原对象对函数的调用不会更改原对象的内容。特殊情况：当xpath（）得到的元素中含有特殊字符（目前遇到的比如\n换行符）时，需要将该元素用str（）将etree对象转化成字符串后再处理。必须要将函数的调用赋值给一个变量（可以是新的变量，也可以是自身，但是都必须要赋值，然后再调用这个赋值过的变量。xpath中的//表示跨节点，/表示不跨节点，元素之间的过渡。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。