python爬虫入门（一）

最新推荐文章于 2022-03-25 09:49:49 发布

【云间清风】

最新推荐文章于 2022-03-25 09:49:49 发布

阅读量331

点赞数 1

分类专栏： python 爬虫学习笔记文章标签： python html 机器学习

本文链接：https://blog.csdn.net/weixin_45095288/article/details/104356206

版权

这篇博客介绍了Python爬虫的基本概念，包括浏览器的工作原理和爬虫的工作流程。重点讲解了requests库的使用，包括requests.get()方法获取网页响应，Response对象的status_code、content和text属性，以及如何处理编码问题。最后提到了爬虫的道德规范——Robots协议，强调了尊重网站的抓取规则的重要性。

摘要由CSDN通过智能技术生成

浏览器的工作原理：

客户端、浏览器、服务器之间的关系如上图

爬虫的工作原理

在这里插入图片描述

获取数据：根据我们提供的网址，向服务器发起请求，然后返回数据。
解析数据：爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
提取数据：爬虫程序再从中提取出我们需要的数据。
储存数据：爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。

入门第一步【requests库】

我们将会利用一个强大的库——requests来获取数据
requests库可以帮我们下载网页源代码、文本、图片，甚至是音频。其实，“下载”本质上是向服务器发送请求并得到响应。
在电脑上安装方法是：
在Mac电脑里打开终端软件（terminal），输入pip3 install requests，然后点击enter即可；
Windows电脑里叫命令提示符（cmd），输入pip install requests 即可。

requests.get( )

import requests                                       #引入requests库
res = requests.get('URL')                       

 #requests.get是在调用requests库中的get()方法，它向服务器发送了一个请求，括号里的参数是你需要的数据所在的网址，然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。

在这里插入图片描述

requests.get()发送了请求，然后得到了服务器的响应。服务器返回的结果是个Response对象，现在存储到了我们定义的变量res中

Response对象的常用属性：

在这里插入图片描述

【1】response.status_code

import requests 
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png')

最低0.47元/天解锁文章

【云间清风】

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫入门（一）

浏览器的工作原理：客户端、浏览器、服务器之间的关系如上图爬虫的工作原理获取数据：根据我们提供的网址，向服务器发起请求，然后返回数据。解析数据：爬虫程序会把服务器返回的数据解析成我们能读懂的格式。提取数据：爬虫程序再从中提取出我们需要的数据。储存数据：爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。入门第一步【requests库】我们将会利用一个强大的库——reque...
复制链接

扫一扫