2021-10-24Python爬虫学习

最新推荐文章于 2024-09-05 11:10:46 发布

啦啦啦大师傅

最新推荐文章于 2024-09-05 11:10:46 发布

阅读量86

点赞数

分类专栏：笔记文章标签： 1024程序员节 python 爬虫

本文链接：https://blog.csdn.net/weixin_51021682/article/details/120932760

版权

笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Python 爬虫学习（1）

1.什么是爬虫
当我们打开网页时，浏览器会做许多工作来让你看到这个网页
爬虫的工作也和浏览器差不多
我们先来了解一下浏览器的工作

当我们想将网页中的图片下载下来时，只需要右键单击下载即可，但是在浏览器眼里他是这样的

我：打开xxx网页
我把xxx给你：浏览器
我：找到这张图，复制下载（取数据）
我：将数据黏贴到本地（存数据）
这么看只有用户和浏览器两方但实际还有第三方服务器，浏览器会先向服务器请求数据，服务器收到请求后将数据发送给浏览器

当我们在浏览器中输入一个网址（url），浏览器会向储存这个网址的服务器获取该网址的数据，这个过程叫请求（request）
当服务器收到请求后，将对应网址数据发送给浏览器，这个过程叫响应（response）

当浏览器收到数据后会解析数据，让数据变成人能看懂的网页
当我们浏览网页时我们会筛选数据，从中找出我们需要的内容

这几个步骤爬虫都能为我们效劳

Requeste库
我使用的是pycharm，首先安装request库

打开终端输入pip install requests即可
在这里插入图片描述

使用方法
在这里插入图片描述

输出结果response 200说明连接成功

接下来我们找一张图片进行测试

以这张图片为例，复制url
在这里插入图片描述图片来源为该网站https://pixabay.com/zh/

import requests

#在使用前需要先通过 import 来引入 requests 库
res = requests.get('https://cdn.pixabay.com/photo/2019/06/08/21/32/castle-4261029_960_720.jpg')
#我们通过调用requests库中的get()方法来获取数据，这个方法需要参数，参数就是你需要请求的网址
print(res)
pic=res.content
#把Reponse对象的内容以二进制数据的形式返回
photo = open('logo.jpg','wb')
#新建了一个文件logo.png，这里的文件没加路径，它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。你在学习open()函数时接触过它。
photo.write(pic)
#获取pic的二进制内容
photo.close()
#关闭文件

运行结果如下
在这里插入图片描述成功下载

啦啦啦大师傅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-10-24Python爬虫学习

Python 爬虫学习（1）1.什么是爬虫当我们打开网页时，浏览器会做许多工作来让你看到这个网页爬虫的工作也和浏览器差不多我们先来了解一下浏览器的工作打开一个网页人民网_网上的人民日报 (people.com.cn)当我们想将网页中的图片下载下来时，只需要右键单击下载即可，但是在浏览器眼里他是这样的我：打开xxx网页我把xxx给你：浏览器我：找到这张图，复制下载（取数据）我：将数据黏贴到本地（存数据）这么看只有用户和浏览器两方但实际还有第三方服务器，浏览器会先向服务器请求数据，服务器
复制链接

扫一扫