python爬虫
Python实战案例
诺坎普的风间
武汉大学信管专业大二在读。致力学习分享Python、人工智能、用户体验设计、前端、数据库等相关知识。同时会不定时分享专业课程学习、与个人整理的复习资料。
展开
-
解决selenium加载网页过慢影响程序运行时间的问题
在用selenium爬取动态加载网页时,发现网页内容都全部加载完了,但是页面还在转圈,并且获取页面内容的代码也没有执行,后面了解到selenium元素操作等方法是需要等待页面所有元素完全加载完成后才开始执行的,所以在页面未完成加载前,代码会一直等待页面加载不继续执行。通过这2步可以大大提升速度。之前我加载页面一个就要42s,效率很低。设置加载策略,设置加载策略为eager。原创 2024-06-05 09:32:12 · 681 阅读 · 0 评论 -
【selenium方式】获取微博指定用户指定日期内所有帖子详细数据
这篇文章主要放源代码,思路不会介绍特别清楚,详细思路可以看评论区的b站讲解视频。获取微博肖战超话内容部分用户的帖子数据,日期范围限定在近2个月,要求获得帖子的发布时间、帖子文本内容、转发数据、评论数据和点赞数据(不包括评论的内容和点赞的人)。通过调查发现,微博有2个入口,第一种如下:第二种如下: 这2种入口爬取方式不同,我因为不熟悉微博,所以也是把两个入口的方式都试了一遍。。。所以这里有个经验要分享一下:爬虫的最终目的是获取需要的数据,不管用什么方式,从网站哪个入口开始,都应该要实现高效率的获得所有数据。因原创 2024-02-01 14:49:10 · 1345 阅读 · 2 评论 -
【120版本】最新谷歌浏览器驱动下载地址
在使用selenium时可能会遇到谷歌浏览器和谷歌驱动器版本不一致的问题,并且国内可以搜到的谷歌浏览器下载地址里面最新的驱动器只有114版本的,但目前谷歌浏览器最新版本是120。然后把里面的Chromedriver.exe放到Chrome所在文件夹。原创 2024-01-14 00:02:02 · 7061 阅读 · 0 评论 -
爬取某著名评分网站影评,利用jieba分词实现简单的影评情感分析,最后由python绘图对结果可视化(三)
爬取豆瓣影评,利用jieba分词实现简单的影评情感分析,最后由python绘图对结果可视化(三)原创 2022-11-27 00:00:33 · 1221 阅读 · 0 评论 -
selenium获取b站视频标题
用selenium获取b站内容四、登录账号+开始爬取注意每个cookies只能使用一段时间,所以要每次都要重新执行下登录账号这两段代码原创 2023-08-09 18:11:53 · 647 阅读 · 1 评论 -
爬取b站任意视频下的所有评论【附完整代码】
今天花了一上午探究如何用selenium获取b站视频下面的评论,一开始只是想用一个视频来练练手,后面逐渐改成了所有视频都适用的完整代码。因为我是用的jupyter,所以整个代码包括两个部分。下面这段代码用于完成获取自动登录b站所需的cookie。下面是第二段代码,具体讲解我会放在b站上。下面的代码大家可以直接运行,还可以更换视频地址。原创 2023-08-15 13:07:44 · 7912 阅读 · 16 评论 -
爬虫练手项目——获取龙族小说全文
目标网站信息如下:包含了龙族1-5全部内容。原创 2023-08-13 18:18:19 · 4658 阅读 · 4 评论 -
利用selenium批量获取百度地图的地址搜索结果
讲解下思路:在打开百度地图url后,因为是循环操作输入地址查找,所以每找完一个地址后需要删掉输入框内的地址,所以循环前都先用“Ctrl + A”加删除。需要注意的是百度地图搜索到的结果页面url会发生变化,所以要跳转到新的url页面中。最后定位到结果所在的元素,提取里面的文字即可。最近一个项目有需求如下:确定一批地址的具体信息(精确到省市区),有些地址是很模糊的,需要百度搜索。于是想到利用selenium操纵百度地图,通过自动输入地址和获取搜索结果加上一定的字符串处理就可以批量完成这个任务。原创 2024-01-17 10:29:45 · 871 阅读 · 1 评论