python爬虫——BeautifulSoup项目实践

最新推荐文章于 2024-07-10 17:28:32 发布

weixin_45965693

最新推荐文章于 2024-07-10 17:28:32 发布

阅读量410

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_45965693/article/details/105037582

版权

Python 专栏收录该内容

54 篇文章 3 订阅

订阅专栏

项目目标：我们要去爬取豆瓣新片榜中电影的基本信息。
豆瓣新片榜
我们计划拿到的信息，就是这个页面上的：电影名、URL、电影基本信息和电影评分信息。

点击开发者工具左上角的小箭头，然后选中一个电影名
我们可以去提取a标签。接着，先用text拿到它的文本，再使用[href]获取到URL。

根据电影名、URL、电影基本信息和电影评分信息的路径，我们可以知道这四者的最小共同父级标签是：div class=“pl2”。

思路一：我们先去爬取所有的最小父级标签div class=“pl2”，然后针对每一个父级标签，想办法提取里面的电影名、URL、电影基本信息和电影的评价信息。
思路二：我们分别提取所有的电影名、URL、电影基本信息和电影的评价信息。然后让电影名、URL、电影基本信息和电影评分信息给一一对应起来（这并不复杂，第0个电影名，对应第0个URL，对应第0组电影基本信息，对应第0组电影评分信息，按顺序走即可）。
提取到了数据我们要存储。但文件存储我们要到第6关才学习。所以，我们就先把数据存到列表里

代码实现方法一

目标页面的获取与解析

import requests
# 引用requests库
from bs4 import BeautifulSoup
# 引用BeautifulSoup库

headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}
#定义请求头（第六课会讲）
res_movies = requests.get('https://movie.douban.com/chart',headers=headers)
# 获取数据,传入参数,第一个为url,第二个为请求头
bs_movies = BeautifulSoup(res_movies.text,'html.parser')
# 解析数据
#print(bs_movies)
# 打印解析结果

list_movies = bs_movies.find_all('div',class_='pl2')
# 查找最小父级标签
##print(list_movies)
# 打印最小父级标签
-------------------------------------------
tag_a = list_movies[0].find('a')
# 提取第1个父级标签中的<a>标签
name = tag_a.text.replace(' ','').replace('\n','')
# 电影名，使用replace方法去掉多余的空格及换行符
url = tag_a['href']
# 电影详情页的链接为
# 输出结果
print('电影名是'+ name + '，' + '电影详情页的链接为：' +url)
--------------------------------------------
##电影的基本信息是在属性为class="pl"的p标签下
tag_p = list_movies[0].find('p')
# 提取第1个父级标签中的<p>标签
information = tag_p.text.replace(' ','').replace('\n','')
# 电影基本信息，使用replace方法去掉多余的空格及换行符

print('电影的基本信息为：'+ information)
# 输出结果

提取最小父级标签（代码合并在上面）
在这里插入图片描述
它的标签是div，有一个class属性，其值是pl2。

当我们打印出的标签数量太多而无规律时，我们会换个更有代表性的标签提取。
下面，我们可以进行下一步。针对查找结果中的每一个元素，再次查找位于里面的电影名、URL、电影基本信息和电影评分信息。

获取一部电影的电影名、URL、电影基本信息和电影评分信息
在这里插入图片描述
电影的基本信息是在属性为class="pl"的p标签下。

在电影的基本信息下，我们还可以看到电影的评分和评价人数，分析网页结构，我们可以看到这些信息是多个span标签构成的。且在属性为class="star clearfix"的div标签下。

只需要查找div标签，然后使用text提取div标签里的纯文本信息，我们就可以提取到我们需要的东西了

当我们在用text获取纯文本时，获取的是该标签内的所有纯文本信息，不论是直接在这个标签内，还是在它的子标签内。
需要强调的一点是，text可以这样做，但如果是要提取属性的值，是不可以的。父标签只能提取它自身的属性值，不能提取子标签的属性值。

在这里插入图片描述

import requests
from bs4 import BeautifulSoup

headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}

res_movies = requests.get('https://movie.douban.com/chart',headers=headers)
# 获取数据
bs_movies = BeautifulSoup(res_movies.text,'html.parser')
# 解析数据
list_movies= bs_movies.find_all('div',class_='pl2')
# 查找最小父级标签
-------------------------------------------------------------
##最终结果
list_all = []
# 创建一个空列表，用于存储信息
for movie in list_movies:
    tag_a = movie.find('a')
# 提取第1个父级标签中的<a>标签
    name = tag_a.text.replace(' ', '').replace('\n', '')
# 电影名，使用replace方法去掉多余的空格及换行符
    url = tag_a['href']
# 电影详情页的链接
    tag_p = movie.find('p', class_='pl')
# 提取第1个父级标签中的<p>标签
    information = tag_p.text.replace(' ', '').replace('\n', '')
# 电影基本信息，使用replace方法去掉多余的空格及换行符
    tag_div = movie.find('div', class_='star clearfix')
# 提取第1个父级标签中的<div>标签
    rating = tag_div.text.replace(' ', '').replace('\n', '')
# 电影评分信息，使用replace方法去掉多余的空格及换行符
    list_all.append([name,url,information,rating])
# 将电影名、URL、电影基本信息和电影评分信息，封装为列表，用append方法添加进list_all

print(list_all)
# 打印
-------------------------------------------------------------
##获取评分信息的部分代码
tag_div = list_movies[0].find('div',class_='star clearfix')
# 提取第0个父级标签中的<div>标签
rating = tag_div.text.replace(' ','').replace('\n','')
# 电影评价信息，使用replace方法去掉多余的空格及换行符

print('电影的评分信息：' + rating)
# 打印一部电影的评分信息

用循环获得所有电影的信息，并存入列表
我们的目标是：写一个循环，提取当前页面的所有电影名、URL、电影基本信息和电影评分信息，并将它存入列表。
在这里插入图片描述
总结：比如，在我们的案例里，如果整个页面有很多个,< a>标签，其数量也没规律，那么URL的数量就会和电影基本信息与电影评分信息出现不匹配的情况。
寻找最小共同父级标签是一种很常见的提取数据思路，它能有效规避这个问题。但有时候，可能需要你反复操作，提取数据。

weixin_45965693

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫——BeautifulSoup项目实践

项目目标：我们要去爬取豆瓣新片榜中电影的基本信息。豆瓣新片榜我们计划拿到的信息，就是这个页面上的：电影名、URL、电影基本信息和电影评分信息。点击开发者工具左上角的小箭头，然后选中一个电影名我们可以去提取a标签。接着，先用text拿到它的文本，再使用[href]获取到URL。根据电影名、URL、电影基本信息和电影评分信息的路径，我们可以知道这四者的最小共同父级标签是：div cla...
复制链接

扫一扫

专栏目录