- 博客(9)
- 收藏
- 关注
原创 python+selenium爬取b站视频(得到登录后的清晰度)+绕过登录
之前写的简单的爬取b站视频时,发现下载的视频清晰度是的那种,影响后期使用。所以这次利用selenium启动chorme的浏览器驱动,先是获取到b站自己账号登录后的cookie进行保存,然后自动在浏览器中注入cookie,实现已登录的b站,最后爬取视频。不过,需要注意的是b站的最高清晰度是需要会员的,所以,都懂。
2023-11-04 23:40:40 1161 1
原创 python异步爬虫(协程asyncio和aiohttp)
协程(单线程),英文叫coroutine,又称微线程、纤程,是一种运行在用户状态的轻量级线程。它拥有自己的寄存器上下文和栈,在调度切换时,将寄存器上下文和栈保存到其他地方,等切回来时,再恢复到先前保存的寄存器上下文和栈。因此,协程能保留上一次调用时的状态,所有局部状态的一个特定组合,每次过程重入,就相当于进入上一次调用的状态。1. event_loop:事件循环,相当于一个无限循环,我们可以把一个函数注册到这个事件循环上,当满足发生条件的时候,就调用对应的处理方法。
2023-10-31 17:45:41 790 1
原创 python中运用RabbitMQ的基础使用
在爬取数据的时候,可能需要一些进程之间的通信机制,例如:A:负责构建爬取请求,B:负责执行爬取请求,C:负责处理爬取的数据。当A构造完后,通知B开始爬取,B爬取完通知C开始处理数据。这个需求可以利用方法的调用去完成,但进程的耦合度高,不建议使用。业内中,针对这一现象就出现了消息队列的中间件,例如Rabbitmq,RocketMQ,Kafka等,本文介绍的是Rabbitmq,以上便是RabbitMQ的基础使用。
2023-10-30 16:53:01 185 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人