Python网络爬虫简单入门

本文详细介绍了Python网络爬虫的基本流程,包括发送请求、获取响应内容、解析内容和保存数据。重点讲解了Requests库的使用,如get、post等方法,并提供了常见异常处理。此外,还探讨了网络爬虫的道德规范,如遵守Robots协议和处理网络爬虫带来的问题。最后,通过实际案例展示了如何使用Requests库和正则表达式进行网页内容抓取和解析。
摘要由CSDN通过智能技术生成
  1. 预备知识
    学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。

  2. Python爬虫基本流程

在这里插入图片描述

a. 发送请求

使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头、请求体等。

Request模块缺陷:不能执行JS 和CSS 代码。

b. 获取响应内容

如果requests的内容存在于目标服务器上,那么服务器会返回请求内容。

Response包含:html、Json字符串、图片,视频等。

c. 解析内容

对用户而言,就是寻找自己需要的信息。对于Python爬虫而言,就是利用正则表达式或者其他库提取目标信息。

解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以wb的方式写入文件

d. 保存数据

解析得到的数据可以多种形式,如文本,音频,视频保存在本地。

数据库(MySQL,Mongdb、Redis)

文件

  1. Requests库入门
    Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。

3.1 Requests库安装和测试
安装:

Win平台:以“管理员身份运行cmd”,执行 pip install requests

在这里插入图片描述

测试:
在这里插入图片描述

3.2 Requests库的7个主要方法
方法 说明
requests.request() 构造一个请求,支撑一下个方法的基础方法。
requests.get() 获取HTML网页的主要方法,对应HTTP的GET
requests.head() 获取HTML网页投信息的方法,对应HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应HTTP的PATCH
requests.delete() 向HTML网页提交删除请求,对应HTTP的DELETE
带可选参数的请求方式:

requests.request(method,url,**kwargs)

method:请求方式,对应get/put/post等7种

url:获取页面的url链接

**kwargs:控制访问的参数,均为可选项,共以下13个

params:字典或字节系列,作为参数增加到url中

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘GET’,‘http://python123.io/ws’,params=kv)
print(r.url)
https://python123.io/ws?key1=value1&key2=value2
data:字典、字节系列或文件对象,作为requests的内容

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘POST’,‘http://python123.io/ws’,data=kv)
body = ‘主题内容’
r = requests.request(‘POST’,‘http:///python123.io/ws’,data=body)
json:JSON格式的数据,作为equests的内容

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘POST’,‘http://python123.io/ws’,json=kv)
headers:字典,HTTP定制头

hd = {‘user-agent’:‘Chrome/10’}
r = requests.request(‘POST’,‘http://www.baidu.com’,headers=hd)
cookies:字典或cookieJar,Request中的cookie

files:字典类型,传输文件

f = {‘file’:open(’/root/po.sh’,‘rb’)}
r = requests.request(‘POST’,‘http://python123.io/ws’,file=f)
timeout:设置超时时间,秒为单位。

r = requests.request(‘GET’,‘http://python123.io/ws’,timeout=30)
proxies:字典类型,设置访问代理服务器,可以增加登录验证。

pxs = {‘http’:‘http://user:pass@10.10.10.2:1234’,
… ‘https’:‘https://10.10.10.3:1234’}

r = requests.request(‘GET’,‘http://www.baidu.com’,proxies=pxs)
allow_redirects:True/False,默认为True,重定向开关

stream:True/False,默认为True,获取内容立即下载开关

verify:rue/False,默认为True,认证SSL证书开关

Cert:本地SSL证书路径

auth:元组类型,支持HTTP认证功能

3.3 Requests库的get()方法
在这里插入图片描述

在这里插入图片描述

3.4 Requests的Response对象
Response对象包含服务器返回的所有信息,也包含请求的Request信息

在这里插入图片描述

Response对象的属性

在这里插入图片描述
在这里插入图片描述

3.5 理解Response的编码
在这里插入图片描述

注意:编码为ISO-8859-1不支持编译中文,需要设置 r = encoding=“utf-8”

3.6 理解Requests库的异常
Requests库支持常见的6种连接异常

在这里插入图片描述

注意:网络连接有风险。异常处理很重要。raise_for_status()如果不等于200则产生异常requests.HTTPError。

3.7 爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return “产生异常”

if name == “main”:
url = “http://www.baidu.com”
print(getHTMLText(url))
4. 网络爬虫的“盗亦有道”:Robots协议
robots是网站跟爬虫间的协议,robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。

网络爬虫的尺寸:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值