爬虫（二）BeautifulSoup,解析数据，提取数据，find,find_all,select用法，爬取豆瓣250排行榜，下电影

最新推荐文章于 2020-11-28 11:56:56 发布

塔希里亚

最新推荐文章于 2020-11-28 11:56:56 发布

阅读量2.4k

点赞数 1

分类专栏： python 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_45239949/article/details/99293801

版权

本文介绍了如何使用BeautifulSoup库解析和提取网页数据，详细讲解了find(), find_all()以及select()方法，并通过实例展示了如何爬取豆瓣Top250电影列表并下载电影信息。" 84770680,1317631,JFinal Controller中处理JSON数据,"['Java', 'Web开发', 'JFinal框架', 'Ajax', 'JSON处理']

摘要由CSDN通过智能技术生成

BeautifulSoup

解析数据

提取数据

find()

find_all()

tag对象

select用法

实例

爬取豆瓣250

下电影

BeautifulSoup

使用BeautifulSoup 解析和提取网页中的数据
安装库 pip install BeautifulSoup4

解析数据

解析数据的方法是用BeautifulSoup()
在这里插入图片描述

import requests     
from bs4 import BeautifulSoup    #引入BS库

res=requests.get('http://www.zongheng.com/rank.html')
sp=BeautifulSoup(res.text,'html.parser')     #括号中的第0个参数，必须是字符串类型；第1个参数是解析器

print(type(sp))
><class 'bs4.BeautifulSoup'>

提取数据

利用bs解析数据后就可以利用bs中的方法来提取数据。
方法一： find()与find_all()
find()只提取首个满足要求的数据，而find_all()提取出的是所有满足要求的数据。
在这里插入图片描述

import requests     
from bs4 import BeautifulSoup    #引入BS库

res=requests.get('http://www.zongheng.com/rank.html')
sp=BeautifulSoup(res.text,'html.parser')     #用BS解析数据，括号中的第0个参数，必须是字符串类型；第1个参数是解析器

tp=sp.find_all('div',class_="borderB_c_dsh")
print(type(tp))

><class 'bs4.element.ResultSet'>   #相当于Tag对象以列表结构储存了起来，可以把它当做列表来处理

Tag对象

import requests     
from bs4 import BeautifulSoup    #引入BS库

res=requests.get('http://www.zongheng.com/rank.html')
sp=BeautifulSoup(res.text,'html.parser')     #括号中的第0个参数，必须是字符串类型；第1个参数是解析器

tp=

最低0.47元/天解锁文章

塔希里亚

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
爬虫（二）BeautifulSoup,解析数据，提取数据，find,find_all,select用法，爬取豆瓣250排行榜，下电影

BeautifulSoupBeautifulSoup使用BeautifulSoup 解析和提取网页中的数据安装库 pip install BeautifulSoup4解析数据解析数据的方法是用BeautifulSoup()import requests from bs4 import BeautifulSoup #引入BS库res=requests.get('h...
复制链接

扫一扫