Python爬虫爬取图片已实现

本文详细介绍了Python爬虫的基本流程,包括获取网页、解析网页和存储数据,并提供了两个简单实例。通过requests库获取网页,使用BeautifulSoup解析HTML,将数据保存为文件。实例包括爬取百度首页HTML和下载百度Logo图片。
摘要由CSDN通过智能技术生成

欢迎小伙伴的点评✨✨,相互学习、互关必回、全天在线🍳🍳🍳
博主🧑🧑 总结了近期学习python 爬虫的心得,10分钟入门爬虫,文章如下


一 、浅谈python爬虫流程

网络爬虫的流程其实非常简单,主要可以分三个部分:

1.1 获取网页

获取网页:就是给一个网址发送请求,该网址会返回整个网页的数据。类似与在浏览器中键入网址并按回车键,然后可以看到网站的整个页面。

1.2解析网页(提取数据)

解析网页:就是从整个网页的数据中提取想要的数据。类似于你在页面中想找到产品的价格,价格就是你要提取的数据。

1.3 存储数据

存储数据:就是把数据存储下来。我们可以存储csv中,也可以存储在数据库中。

获取网页
解析网页
存储数据

二、3个流程的技术实现

2.1获取网页技术

获取网页的基础技术:requests、urllib和selenium。

2.2解析网页技术

解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。

2.3存储数据的技术

存储数据的基础技术:存入txt文件和存入csv文件。

三、编写一个简单的网络爬虫实例

3.1使用工具简介

  • PyCharm Community Edition 2022.1.4
  • Python3.10
  • requests
  • 安装好python后打开cmd安装requests的命令
pip install requests

3.2实例源码1

3.2.1 、爬取百度的html页面并保存


import requests

url = "http://www.baidu.com"

response = requests.get( url )

response.encoding = "utf-8" #设置接收编码格式

print(" r的类型" + str( type(response) ) )

print(" 状态码是:" + str( response.status_code ) )

print(" 头部信息:" + str( response.headers ) )

print( " 响应内容:" )

print( response.text )

#保存文件

file = open("baidu.html","w",encoding="utf") #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制

file.write( response.text )

file.close()

3.2.2效果图如下

在这里插入图片描述
这里有一个问题 打开页面没有百度logo
没关系咱们去把logo爬下来就好了,看一下爬取的信息发现了百度的logo如下图
在这里插入图片描述
在这里插入图片描述
把百度logo的URL拷贝下来用来抓取图片

3.3实例源码2

3.3.1 爬取百度logo图片并保存


import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get("https://www.baidu.com/img/bd_logo1.png") #get方法的到图片响应

file = open("bd_logo1.png","wb") #打开一个文件,保存到本地

file.write(response.content) #写入文件

file.close()#关闭操作


3.3.2效果图如下

在这里插入图片描述
在这里插入图片描述


四、Python爬虫总结

对于网络爬虫技术的学习,我们应该从宏观的角度出发去思考

  • Python爬虫的流程是怎样的,数据是怎么从网络端下载到本地端的;
  • Python爬虫流程技术是怎么实现的;
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东.'

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值