爬取豆瓣TOP250

最新推荐文章于 2024-06-25 03:17:30 发布

zhou_tong9

最新推荐文章于 2024-06-25 03:17:30 发布

阅读量805

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/zhou_tong9/article/details/105477804

版权

本文详细介绍了如何使用Python进行网络爬虫，通过requests和lxml库爬取并解析豆瓣Top250电影的名称、链接、星级、评分、评价等信息，最后将数据保存到CSV文件中。

摘要由CSDN通过智能技术生成

第一课《爬取豆瓣TOP250》

一、准备工作

安装python。
安装jupyter库，按window+R，会弹出一个方框，输入cmd会弹出窗口，输入pip install jupyter，安装jupyter库。
安装好jupyter后，建一个文件夹，在文件夹路径那里输入cmd，会出现一个窗口了，再直接输入jupyter notebook,按回车，便可直接进入jupyter的网络编辑页面。
如图：

出现此界面后便会自动跳转到jupyter的网络编辑页面，如图：

在此页面后，点击右上角的New，选择Python3，会新建一个网页编辑器。

二、开始分析网页

（1）URL链接分析网页

第一页：https://movie.douban.com/top250?start=0&filter=
第二页：https://movie.douban.com/top250？start=25&filter=
第三页：https://movie.douban.com/top250?start=50&filter=
第四页：https://movie.douban.com/top250?start=75&filter=
第五页：https://movie.douban.com/top250?start=100&filter=
以上为豆瓣电影top250的前五个网页链接，由上我们可以看出黄色标记出来的部分是它们的不同，并且是有规律的，0,、25、50、75、100，所以可以推出后五页的链接。
例如：第九页的链接为：https://movie.douban.com/top250?start=200&filter=

（2）用for循环分析

结果如下：
在这里插入图片描述

（3）用函数表示出URL链接

在这里插入图片描述
将start=0改为start=%s,后面的%page表示将page函数中的数值范围赋予给s,即可得出十个网页的链接。点击第五个链接，就到top250 中的第五页，与之前得到的链接相同。

三、爬取网页

（1）安装requests库

进行这步操作需要安装requests库，按window+R，会弹出一个方框，输入cmd会弹出窗口，输入pip install requests，安装requests库。
以请求第一页为例如图：
在这里插入图片描述

（2）在网页上对代码进行审查

在空白处点击右键，进入检查，点击network，点击all，在对网页进行刷新，就会出现网页的组成，如图片、文字、文件等。
如图：在这里插入图片描述

（3）请求源代码（HTML），向服务器发出请求

在这里插入图片描述

（4）伪装浏览器

首先，将代码审查中的user-agent复制过来，将其构成一个字典。
如图：

最低0.47元/天解锁文章

zhou_tong9

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
爬取豆瓣TOP250

第一课《爬取豆瓣TOP250》一、准备工作二、开始分析网页（1）URL链接分析网页（2）用for循环分析（3）用函数表示出URL链接三、爬取网页（1）安装requests库（2）在网页上对代码进行审查（3）请求源代码（HTML），向服务器发出请求（4）伪装浏览器四、筛选信息（1）安装lxml库（2）从top250提取信息（3）复制整个网页的xpath路径（4）获取电影名称（5）获取电影链接（6）获...
复制链接

扫一扫