python爬虫——BeautifulSoup项目实践

项目目标:我们要去爬取豆瓣新片榜中电影的基本信息。
豆瓣新片榜
我们计划拿到的信息,就是这个页面上的:电影名、URL、电影基本信息和电影评分信息。

  • 点击开发者工具左上角的小箭头,然后选中一个电影名
  • 我们可以去提取a标签。接着,先用text拿到它的文本,再使用[href]获取到URL。
    在这里插入图片描述
    根据电影名、URL、电影基本信息和电影评分信息的路径,我们可以知道这四者的最小共同父级标签是:div class=“pl2”。
  • 思路一:我们先去爬取所有的最小父级标签div class=“pl2”,然后针对每一个父级标签,想办法提取里面的电影名、URL、电影基本信息和电影的评价信息。
  • 思路二:我们分别提取所有的电影名、URL、电影基本信息和电影的评价信息。然后让电影名、URL、电影基本信息和电影评分信息给一一对应起来(这并不复杂,第0个电影名,对应第0个URL,对应第0组电影基本信息,对应第0组电影评分信息,按顺序走即可)。
  • 提取到了数据我们要存储。但文件存储我们要到第6关才学习。所以,我们就先把数据存到列表里
    在这里插入图片描述

代码实现方法一

目标页面的获取与解析

import requests
# 引用requests库
from bs4 import BeautifulSoup
# 引用BeautifulSoup库

headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}
#定义请求头(第六课会讲)
res_movies = requests.get('https://movie.douban.com/chart',headers=headers)
# 获取数据,传入参数,第一个为url,第二个为请求头
bs_movies = BeautifulSoup(res_movies.text,'html.parser')
# 解析数据
#print(bs_movies)
# 打印解析结果

list_movies = bs_movies.find_all('div',class_='pl2')
# 查找最小父级标签
##print(list_movies)
# 打印最小父级标签
-------------------------------------------
tag_a = list_movies[0].find('a')
# 提取第1个父级标签中的<a>标签
name = tag_a.text.replace(' ','').replace('\n','')
# 电影名,使用replace方法去掉多余的空格及换行符
url = tag_a['href']
# 电影详情页的链接为
# 输出结果
print('电影名是'+ name + ',' + '电影详情页的链接为:' +url)
--------------------------------------------
##电影的基本信息是在属性为class="pl"的p标签下
tag_p = list_movies[0].find('p')
# 提取第1个父级标签中的<p>标签
information = tag_p.text.replace(' ','').replace('\n','')
# 电影基本信息,使用replace方法去掉多余的空格及换行符

print('电影的基本信息为:'+ information)
# 输出结果

提取最小父级标签(代码合并在上面)
在这里插入图片描述
它的标签是div,有一个class属性,其值是pl2。

  • 当我们打印出的标签数量太多而无规律时,我们会换个更有代表性的标签提取。
  • 下面,我们可以进行下一步。针对查找结果中的每一个元素,再次查找位于里面的电影名、URL、电影基本信息和电影评分信息。

获取一部电影的电影名、URL、电影基本信息和电影评分信息
在这里插入图片描述
电影的基本信息是在属性为class="pl"的p标签下。
在这里插入图片描述

在电影的基本信息下,我们还可以看到电影的评分和评价人数,分析网页结构,我们可以看到这些信息是多个span标签构成的。且在属性为class="star clearfix"的div标签下。
在这里插入图片描述
只需要查找div标签,然后使用text提取div标签里的纯文本信息,我们就可以提取到我们需要的东西了

  • 当我们在用text获取纯文本时,获取的是该标签内的所有纯文本信息,不论是直接在这个标签内,还是在它的子标签内。
  • 需要强调的一点是,text可以这样做,但如果是要提取属性的值,是不可以的。父标签只能提取它自身的属性值,不能提取子标签的属性值。
    在这里插入图片描述在这里插入图片描述

在这里插入图片描述

import requests
from bs4 import BeautifulSoup

headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}

res_movies = requests.get('https://movie.douban.com/chart',headers=headers)
# 获取数据
bs_movies = BeautifulSoup(res_movies.text,'html.parser')
# 解析数据
list_movies= bs_movies.find_all('div',class_='pl2')
# 查找最小父级标签
-------------------------------------------------------------
##最终结果
list_all = []
# 创建一个空列表,用于存储信息
for movie in list_movies:
    tag_a = movie.find('a')
# 提取第1个父级标签中的<a>标签
    name = tag_a.text.replace(' ', '').replace('\n', '')
# 电影名,使用replace方法去掉多余的空格及换行符
    url = tag_a['href']
# 电影详情页的链接
    tag_p = movie.find('p', class_='pl')
# 提取第1个父级标签中的<p>标签
    information = tag_p.text.replace(' ', '').replace('\n', '')
# 电影基本信息,使用replace方法去掉多余的空格及换行符
    tag_div = movie.find('div', class_='star clearfix')
# 提取第1个父级标签中的<div>标签
    rating = tag_div.text.replace(' ', '').replace('\n', '')
# 电影评分信息,使用replace方法去掉多余的空格及换行符
    list_all.append([name,url,information,rating])
# 将电影名、URL、电影基本信息和电影评分信息,封装为列表,用append方法添加进list_all

print(list_all)
# 打印
-------------------------------------------------------------
##获取评分信息的部分代码
tag_div = list_movies[0].find('div',class_='star clearfix')
# 提取第0个父级标签中的<div>标签
rating = tag_div.text.replace(' ','').replace('\n','')
# 电影评价信息,使用replace方法去掉多余的空格及换行符

print('电影的评分信息:' + rating)
# 打印一部电影的评分信息

用循环获得所有电影的信息,并存入列表
我们的目标是:写一个循环,提取当前页面的所有电影名、URL、电影基本信息和电影评分信息,并将它存入列表。
在这里插入图片描述
总结:比如,在我们的案例里,如果整个页面有很多个,< a>标签,其数量也没规律,那么URL的数量就会和电影基本信息与电影评分信息出现不匹配的情况。
寻找最小共同父级标签是一种很常见的提取数据思路,它能有效规避这个问题。但有时候,可能需要你反复操作,提取数据。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值