欢迎小伙伴的点评✨✨,相互学习、互关必回、全天在线🍳🍳🍳
博主🧑🧑 总结了近期学习python 爬虫的心得,10分钟入门爬虫,文章如下
文章目录
一 、浅谈python爬虫流程
网络爬虫的流程其实非常简单,主要可以分三个部分:
1.1 获取网页
获取网页:就是给一个网址发送请求,该网址会返回整个网页的数据。类似与在浏览器中键入网址并按回车键,然后可以看到网站的整个页面。
1.2解析网页(提取数据)
解析网页:就是从整个网页的数据中提取想要的数据。类似于你在页面中想找到产品的价格,价格就是你要提取的数据。
1.3 存储数据
存储数据:就是把数据存储下来。我们可以存储csv中,也可以存储在数据库中。
二、3个流程的技术实现
2.1获取网页技术
获取网页的基础技术:requests、urllib和selenium。
2.2解析网页技术
解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。
2.3存储数据的技术
存储数据的基础技术:存入txt文件和存入csv文件。
三、编写一个简单的网络爬虫实例
3.1使用工具简介
- PyCharm Community Edition 2022.1.4
- Python3.10
- requests
- 安装好python后打开cmd安装requests的命令
pip install requests
3.2实例源码1
3.2.1 、爬取百度的html页面并保存
import requests
url = "http://www.baidu.com"
response = requests.get( url )
response.encoding = "utf-8" #设置接收编码格式
print(" r的类型" + str( type(response) ) )
print(" 状态码是:" + str( response.status_code ) )
print(" 头部信息:" + str( response.headers ) )
print( " 响应内容:" )
print( response.text )
#保存文件
file = open("baidu.html","w",encoding="utf") #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制
file.write( response.text )
file.close()
3.2.2效果图如下
这里有一个问题 打开页面没有百度logo
没关系咱们去把logo爬下来就好了,看一下爬取的信息发现了百度的logo如下图
把百度logo的URL拷贝下来用来抓取图片
3.3实例源码2
3.3.1 爬取百度logo图片并保存
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("https://www.baidu.com/img/bd_logo1.png") #get方法的到图片响应
file = open("bd_logo1.png","wb") #打开一个文件,保存到本地
file.write(response.content) #写入文件
file.close()#关闭操作
3.3.2效果图如下
四、Python爬虫总结
对于网络爬虫技术的学习,我们应该从宏观的角度出发去思考
- Python爬虫的流程是怎样的,数据是怎么从网络端下载到本地端的;
- Python爬虫流程技术是怎么实现的;