Python爬虫爬取图片已实现

东.'

已于 2022-07-31 09:26:47 修改

阅读量610

点赞数 21

分类专栏： Python常规应用开发文章标签： python 爬虫 pycharm windows pip

于 2022-07-29 11:44:12 首次发布

本文链接：https://blog.csdn.net/weixin_44759598/article/details/126048962

版权

Python常规应用开发专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文详细介绍了Python爬虫的基本流程，包括获取网页、解析网页和存储数据，并提供了两个简单实例。通过requests库获取网页，使用BeautifulSoup解析HTML，将数据保存为文件。实例包括爬取百度首页HTML和下载百度Logo图片。

摘要由CSDN通过智能技术生成

欢迎小伙伴的点评✨✨，相互学习、互关必回、全天在线🍳🍳🍳
博主🧑🧑 总结了近期学习python 爬虫的心得，10分钟入门爬虫，文章如下

一、浅谈python爬虫流程

网络爬虫的流程其实非常简单，主要可以分三个部分：

1.1 获取网页

获取网页：就是给一个网址发送请求，该网址会返回整个网页的数据。类似与在浏览器中键入网址并按回车键，然后可以看到网站的整个页面。

1.2解析网页（提取数据）

解析网页：就是从整个网页的数据中提取想要的数据。类似于你在页面中想找到产品的价格，价格就是你要提取的数据。

1.3 存储数据

存储数据：就是把数据存储下来。我们可以存储csv中，也可以存储在数据库中。

二、3个流程的技术实现

2.1获取网页技术

获取网页的基础技术：requests、urllib和selenium。

2.2解析网页技术

解析网页的基础技术：re正则表达式、BeautifulSoup和lxml。

2.3存储数据的技术

存储数据的基础技术：存入txt文件和存入csv文件。

三、编写一个简单的网络爬虫实例

3.1使用工具简介

PyCharm Community Edition 2022.1.4
Python3.10
requests
安装好python后打开cmd安装requests的命令

pip install requests

3.2实例源码1

3.2.1 、爬取百度的html页面并保存


import requests

url = "http://www.baidu.com"

response = requests.get( url )

response.encoding = "utf-8" #设置接收编码格式

print(" r的类型" + str( type(response) ) )

print(" 状态码是:" + str( response.status_code ) )

print(" 头部信息:" + str( response.headers ) )

print( " 响应内容:" )

print( response.text )

#保存文件

file = open("baidu.html","w",encoding="utf") #打开一个文件，w是文件不存在则新建一个文件，这里不用wb是因为不用保存成二进制

file.write( response.text )

file.close()

3.2.2效果图如下

在这里插入图片描述
这里有一个问题打开页面没有百度logo
没关系咱们去把logo爬下来就好了，看一下爬取的信息发现了百度的logo如下图

把百度logo的URL拷贝下来用来抓取图片

3.3实例源码2

3.3.1 爬取百度logo图片并保存


import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.get("https://www.baidu.com/img/bd_logo1.png") #get方法的到图片响应

file = open("bd_logo1.png","wb") #打开一个文件,保存到本地

file.write(response.content) #写入文件

file.close()#关闭操作