Python爬取豆瓣电影top250

最新推荐文章于 2024-05-24 18:58:21 发布

要吃冰激凌。

最新推荐文章于 2024-05-24 18:58:21 发布

阅读量1.4w

点赞数 23

分类专栏： Python 文章标签： python xpath csv 正则表达式

本文链接：https://blog.csdn.net/weixin_45624304/article/details/105476627

版权

我的目录

1.准备工作
2.分析网页
3.爬取网页
4.信息筛选
5.python输出方法
- 5.1用分隔符美化输出结果
- 5.2 可以同时print多个值
6.将爬取的内容保存
7.查看结果

1.准备工作

1.1、安装Python

2.1建立jupyter环境

window+R，输入cmd，进入控制台

pip install jupyter

在这里插入图片描述

3.1进入编辑环境

新建一个文件夹，打开文件夹，进入控制台，输入jupyter notebook，即进入编辑环境。
在这里插入图片描述
进入编辑环境页面

2.分析网页

2.1 打开豆瓣电影top250网页

在这里插入图片描述

2.2 分析网页结构

查看每一页网页的url，分析它的规律
在这里插入图片描述
可以看出，从第二页开始，URL不同的都是’start='后面这个数，并且基数都为25。则可以分析出第一页为：https://movie.douban.com/top250?start=0&filter=

2.3 用for循环分析结果

也可用for循环来分析，结果如下：

	for page in range(0,226,25):
    print (page)

在这里插入图片描述

2.4 用page函数表示这十页的URL链接

代码如下：

for page in range(0,226,25):
    url= 'https://movie.douban.com/top250?start=%s&filter='%page
    print (url)

结果如下：
在这里插入图片描述

3.爬取网页

3.1 请求HTML源代码

首先，安装requests，（win+R—输入cmd—pip install requests—enter），结果如下：
在这里插入图片描述
请求HTML以第一页为例：

import requests
test_url='https://movie.douban.com/top250?start=0&filter='

注：此处单引号也可以改为双引号，目的是将test_url变为字符串。

3.2 到TOP250上对代码进行审查

右击—检查元素—network—All—刷新，打开如下：
在这里插入图片描述

3.3 请求网页及请求方法

首先点击第一个网址，再点击header，由图中可以知道请求网址及方法：
在这里插入图片描述
代码如下：

import requests
test_url='https://movie.douban.com/top250?start=0&filter='
requests.get(url=test_url)

结果如下：
在这里插入图片描述
若改为：

import requests
test_url='https://movie.douban.com/top250?start=0&filter='
requests.get(url=test_url).text

同样没有返回值。
则是因为浏览器识别出这个语句为爬虫程序，所以拒绝返回值给我们。

3.4 伪装浏览器

伪装浏览器主要是用来躲过浏览器识别，便于成功获取数据。
首先将代码审查中的用户代理复制到请求代码中，用于伪装。
用户代理为：

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/537.36

代码表示如下：

import requests
test_url='https://movie.douban.com/top250?start=0&filter='

#设置浏览器代理，它是一个字典
headers={
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/537.36'
}
#请求源代码向服务器发出请求
requests.get(url=test_url,headers = headers).text

结果如下：
在这里插入图片描述

4.信息筛选

分析工具有：
xpath，re（正则表达式），BeautifulSoup,即BS4。

4.1 安装lxml库

win+R—输入cmd—pip install lxml—enter），结果如下：
在这里插入图片描述

4.2 过滤

代码如下：

from lxml import etree
    html_etree = etree.HTML(reponse)
     #reponse=requests.get(url=test_url,headers = headers).text
    print ( html_etree)

html_etree可任意命名，HTML必须为大写。
运行结果如下：
在这里插入图片描述

4.3 从网页上提取信息

以泰坦尼克号为例
代码如下：

from lxml import etree
    html_etree = etree.HTML(reponse)
    #reponse=requests.get(url=test_url,headers = headers).text
    
    #过滤
    html_etree.xpath('//*[@id="content"]/div/div[1]/ol/li[6]/div/div[2]/div[1]/a/span[1]/text()'

结果如下：
在这里插入图片描述

4.4 提取整个网页的xpath路径

打开网页—检查—li
如图所示：
在这里插入图片描述
将每一个电影的xpath路径复制下来，可得：

用语句表达为：

 li = html_etre

最低0.47元/天解锁文章

要吃冰激凌。

关注

23
点赞
踩
206

收藏

觉得还不错? 一键收藏
7
评论
Python爬取豆瓣电影top250

我的目录1.准备工作1.1、安装Python2.1建立jupyter环境3.1进入编辑环境2.分析网页2.1 打开豆瓣电影top250网页2.2 分析网页结构2.3 用for循环分析结果2.4 用page函数表示这十页的URL链接3.爬取网页3.1 请求HTML源代码3.2 到TOP250上对代码进行审查3.3 请求网页及请求方法3.4 伪装浏览器4.信息筛选4.1 安装lxml库4.2 过滤4....
复制链接

扫一扫