[python]飞桨python小白逆袭课程day2——《青春有你2》选手信息爬取

最新推荐文章于 2022-06-20 16:39:41 发布

哟米 2000

最新推荐文章于 2022-06-20 16:39:41 发布

阅读量264

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_44566432/article/details/105816224

版权

python 专栏收录该内容

63 篇文章 3 订阅

订阅专栏

深度学习一般过程:

收集数据，尤其是有标签、高质量的数据是一件昂贵的工作。

爬虫的过程，就是模仿浏览器的行为，往目标站点发送请求，接收服务器的响应数据，提取需要的信息，并进行保存的过程。

Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库

上网的全过程:

普通用户:

打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。

爬虫程序:

模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。

爬虫的过程：

1.发送请求（requests模块）

2.获取响应数据（服务器返回）

3.解析并提取数据（BeautifulSoup查找或者re正则）

4.保存数据

本实践中将会使用以下两个模块，首先对这两个模块简单了解以下：

request模块：

requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/

requests.get(url)可以发送一个http get请求，返回服务器响应内容。

BeautifulSoup库：

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml。

BeautifulSoup(markup, "html.parser")或者BeautifulSoup(markup, "lxml")，推荐使用lxml作为解析器,因为效率更高。