- 博客(7)
- 收藏
- 关注
原创 爬虫etree.tostring()的坑
最近在爬虫的时间需要保存一些带有标签的前端信息,就使用了lxml的etree.tostring()方法,但是使用该方法的时候总是会出现一些其他没有选择的标签信息, 如图所示。我们将该标签信息进行前端展示效果如下,可以看到这里多了一些我们所不需要的标签。处理方法: 添加应该method参数,其值为html。我们使用etree.tostring()转换该标签。这样就可以得到我们所想要的效果啦。
2024-08-28 14:23:45 143
原创 总结xpath中following和following-sibling的区别
本文介绍了xpath中的following和following-sibling的使用方法
2024-07-19 15:19:24 325
原创 使用DrissionPage自动化登录淘宝
滑块验证码的解决(这里只放部分代码),存在验证失败重新验证的情况(自行解决)判断是否存在滑块验证码:在输入账号和密码之后等待几秒,等加载完再进行判断。搜索数据 ,这里我们随便输入关键字,点击搜索时发现自动跳转到了登录界面。使用drassionpage进行自动化登录。如果存在验证码则解决验证码,没有直接点击登录。淘宝的反爬机制就不多说了,这里直接上干货。登录完成,开始采集数据。定位账号和密码的位置。
2024-07-11 16:41:38 663
原创 requests爬虫SSLError: HTTPSConnectionPool(host=‘xxx‘, port=443)解决思路
Caused by SSLError(SSLError(1, '[SSL: BAD_ECPOINT] bad ecpoint (_ssl.c:1076)'))) in xxxx
2024-06-18 16:13:41 455
原创 MongoDB数据库基础操作
1、查看当前数据库的版本:db.version()2、查看当前所在的数据库:db(刚进去默认是test数据库)3、查看当前数据库的连接地址:db.getMongo()4、查看所有数据库:show databases / show dbs注:如果数据库中没有数据则不显示该数据库(例如默认进入的test数据库)5、切换数据库:use 数据库名称注:如果切换的数据库不存在,则先创建再切换6、创建集合:db.createCollection(‘集合名’)7、查看当前数据库的所有集合:s
2021-01-23 21:53:08 331
原创 redis数据库之字符串操作
我们知道redis数据库一共有16个库(0-15),默认选择的是第一个(0)库.(一)redis中有些操作与数据类型无关,如以下几种keys * :查看数据库中的所有键名expire 键名 秒数 :给指定键名设置过期时间persist 键名 :移除过期时间select 库名 : 选择对应的数据库flushd:删除当前数据库的所有数据fulshall:清空所有数据库中的数据(二):redis数据库中的字符串操作(1)set 键 值 : 设置一个键值对,返回OK代表设置成功,s
2021-01-21 13:03:50 243
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人