Python网络爬虫简单入门

最新推荐文章于 2024-08-14 10:14:38 发布

阿言教编程

最新推荐文章于 2024-08-14 10:14:38 发布

阅读量2k

点赞数

分类专栏：爬虫技术程序员 Python技术文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_45820912/article/details/122652087

版权

本文详细介绍了Python网络爬虫的基本流程，包括发送请求、获取响应内容、解析内容和保存数据。重点讲解了Requests库的使用，如get、post等方法，并提供了常见异常处理。此外，还探讨了网络爬虫的道德规范，如遵守Robots协议和处理网络爬虫带来的问题。最后，通过实际案例展示了如何使用Requests库和正则表达式进行网页内容抓取和解析。

摘要由CSDN通过智能技术生成

预备知识
学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。
Python爬虫基本流程

在这里插入图片描述

a. 发送请求

使用http库向目标站点发起请求，即发送一个Request，Request包含：请求头、请求体等。

Request模块缺陷：不能执行JS 和CSS 代码。

b. 获取响应内容

如果requests的内容存在于目标服务器上，那么服务器会返回请求内容。

Response包含：html、Json字符串、图片，视频等。

c. 解析内容

对用户而言，就是寻找自己需要的信息。对于Python爬虫而言，就是利用正则表达式或者其他库提取目标信息。

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

d. 保存数据

解析得到的数据可以多种形式，如文本，音频，视频保存在本地。

数据库（MySQL，Mongdb、Redis）

文件

Requests库入门
Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。

3.1 Requests库安装和测试
安装：

Win平台：以“管理员身份运行cmd”，执行 pip install requests

在这里插入图片描述

测试：
在这里插入图片描述

3.2 Requests库的7个主要方法
方法说明
requests.request() 构造一个请求，支撑一下个方法的基础方法。
requests.get() 获取HTML网页的主要方法，对应HTTP的GET
requests.head() 获取HTML网页投信息的方法，对应HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法，对应HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法，对应HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求，对应HTTP的PATCH
requests.delete() 向HTML网页提交删除请求，对应HTTP的DELETE
带可选参数的请求方式：

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post等7种

url：获取页面的url链接

**kwargs：控制访问的参数，均为可选项，共以下13个

params：字典或字节系列，作为参数增加到url中

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘GET’,‘http://python123.io/ws’,params=kv)
print(r.url)
https://python123.io/ws?key1=value1&key2=value2
data：字典、字节系列或文件对象，作为requests的内容

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘POST’,‘http://python123.io/ws’,data=kv)
body = ‘主题内容’
r = requests.request(‘POST’,‘http:///python123.io/ws’,data=body)
json：JSON格式的数据，作为equests的内容

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘POST’,‘http://python123.io/ws’,json=kv)
headers：字典，HTTP定制头

hd = {‘user-agent’:‘Chrome/10’}
r = requests.request(‘POST’,‘http://www.baidu.com’,headers=hd)
cookies：字典或cookieJar，Request中的cookie

files：字典类型，传输文件

f = {‘file’:open(’/root/po.sh’,‘rb’)}
r = requests.request(‘POST’,‘http://python123.io/ws’,file=f)
timeout:设置超时时间，秒为单位。

r = requests.request(‘GET’,‘http://python123.io/ws’,timeout=30)
proxies:字典类型，设置访问代理服务器，可以增加登录验证。

pxs = {‘http’:‘http://user:pass@10.10.10.2:1234’,
… ‘https’:‘https://10.10.10.3:1234’}

r = requests.request(‘GET’,‘http://www.baidu.com’,proxies=pxs)
allow_redirects:True/False,默认为True，重定向开关

stream：True/False,默认为True，获取内容立即下载开关

verify：rue/False,默认为True，认证SSL证书开关

Cert：本地SSL证书路径

auth：元组类型，支持HTTP认证功能

3.3 Requests库的get()方法
在这里插入图片描述

在这里插入图片描述

3.4 Requests的Response对象
Response对象包含服务器返回的所有信息，也包含请求的Request信息

在这里插入图片描述

Response对象的属性

在这里插入图片描述

3.5 理解Response的编码
在这里插入图片描述

注意：编码为ISO-8859-1不支持编译中文，需要设置 r = encoding=“utf-8”

3.6 理解Requests库的异常
Requests库支持常见的6种连接异常

在这里插入图片描述

注意：网络连接有风险。异常处理很重要。raise_for_status()如果不等于200则产生异常requests.HTTPError。

3.7 爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return “产生异常”

if name == “main”:
url = “http://www.baidu.com”
print(getHTMLText(url))
4. 网络爬虫的“盗亦有道”：Robots协议
robots是网站跟爬虫间的协议，robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。

网络爬虫的尺寸：