Python入门之爬取豆瓣电影Top250

本文介绍了如何使用Python入门爬虫,通过分析豆瓣电影Top250页面,利用requests库请求服务器,XPath提取信息,最后将数据写入CSV文件。详细步骤包括安装jupyter环境、设置浏览器代理、请求服务器、提取信息和保存数据。
摘要由CSDN通过智能技术生成

Python入门–>爬虫–>爬取豆瓣电影Top250

1.安装jupyter环境

虽然之前学过python,但是之前使用python的方法与现在的不一样,现在电脑上需要安装jupyter环境。

1.1进入安装页面

先按win键+R键,再输入“cmd”回车进入安装的页面,输入安装代码:pip install jupyter。(一般安装的时候会比较慢,多等一下)

2.分析网页

2.1为什么要分析网页

	首先,我们要对网页有基本的了解,要知道它的数据的加载方式,从而判断和测试该网页是否能爬取,如果能,那应该使用什么方法去爬取。选择一个好的爬取方式才能达到事半功倍的效果。
2.2怎样去分析一个网页的结构
首先要了解该网页的每个页面的网址规律,找出不同的地方,大部分网页不用把每个页面的网址都找出来,一般找出第一个和最后一个,其它的再找几个就可以。对于豆瓣电影Top250来说,该网页共有10个页面,且它的网页结构如下:
![](https://img-blog.csdnimg.cn/20200411120653806.png)
从这个图上我们可以看出,该网页的每个页面网址中只有一个地方不同,该页面从0开始,225结束,每个页面之间间隔为25。

链接测试:
可以使用除了第一页的其它任何一页进行链接测试,在浏览器中访问我们选中的页面,对比当前内容与之前打开的页面内容是否一致,若一致,则可以直接使用访问链接的方式,使用python中的requests库来代替浏览器请求服务器,返回HTML文件,提取并保存数据。再生成下一页的链接,重复上面的操作。
生成每一页的链接:
用一个for循环来实现,代码如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值