Python 爬虫入门详解_python requets的 get 中如何使用 query string parameters-CSDN博客

本文链接：https://blog.csdn.net/weixin_47449176/article/details/113360302

前言

对爬虫非常感兴趣但又不知道如何入门的伙伴，本篇文章将带领您走进爬虫的世界

看完本篇内容您可以做些什么

可以爬取一些简单网页中的内容(如需进行提升,可以看在下的另一篇爬虫进阶的博文)

对请求头，请求参数，请求方法有一定理解

前置知识要求(您需要对下面的内容有一定了解才能方便您看懂本文)

Python模块的基础导入

Python的基础数据类型以及数据的增删改查方法，循环，嵌套

Python的requests模块的基本功能以及方法

锦上添花(如果还了解一下内容会对您理解底层代码，如何向服务器发送请求，服务器如何响应有所帮助)

Python函数

Python面向对象

OSI模型

TCP/IP协议

正文

模块的导入 Import Module

import requests

如何选择请求方法 Request Method

请求方法一般使用 get 和post两种

打开浏览器进入调试面板(F12或右键页面单击‘检查’)

然后切换到Network面板(进行抓包)

在浏览器网址栏输入需要请求的页面然后单击回车键
在这里插入图片描述

点击Name栏下的网址
Headers栏中General下拉列表中的Request Method方法即为请求方法

需要注意的是Status Code(状态码) 是否为200，如果是其他的数值则有可能当前界面不是想要请求的页面。

有可能服务器将此Url的请求转移到其他Url上，则需要在调试栏中找出输出数据的Url

Url==网址

请求的发送 Send Requests

url='待请求页面的网址(字符串类型)'
requests.get(url='需要请求地址的网址')

请求头 Request Header

访问网页需要首先与服务器建立一个连接，您可以理解为进入一个游乐园
网址Url就是游乐园的地址

网页中的内容则为游乐园中的娱乐项目

您的请求头就是进入游乐园的门票

(门票不止请求头一种，也有可能有多张门票构成的组合门票，您需要将门票都集齐才能进入)

没有任何验证的网页则就是一个免费的娱乐项目

User-Agent

您的User-Agent 在General下面的Request Headers里
在这里插入图片描述

U-A为您的身份，有些网站只允许特定身份的人进入
具体内容为您访问网页所使用的工具的种类以及型号，用python请求如果不改则默认为python请求
在这里插入图片描述
例如有些网站只允许手机浏览器访问，如果您想要访问则需要将U-A伪装为手机浏览器的U-A

您可以理解为
一个游乐园只允许成年人进入，则U-A就是成年人这个身份
修改U-A

#headers为字典类型
headers={'User-Agent':'能够访问网页的U-A'}    #大部分网页使用电脑浏览器U-A即可访问
url='待请求页面的网址(字符串类型)'
requests.get(url='需要请求地址的网址',headers=headers)  #将headers传入get方法中的headers参数实现伪装

Cookie

网站为了辨别用户身份，进行Session跟踪而储存在用户本地终端上的数据（通常经过加密），由用户客户端计算机暂时或永久保存的信息(这样您使用网址中的功能时就不用频繁登陆)
您可以理解为
您一开始只有一张进入园区的门票，待您在售票处买票后（登录）游乐园会将您可游玩的项目写入您的门票里(存储cookie到本地)，您进去游玩项目的时候浏览器会自动出示您的门票（浏览器自动解析cookie并将cookie加入请求头），游乐园管理者则会进行验证(服务器验证)，验证成功后将会提供服务(服务器返回内容)
cookie一般具有时效性==您的游玩项目的时间有限制，若超过则需要重新购票(登录)

cookie的获取方式

刚入门时建议手动获取

先手动使用浏览器访问您需要获取内容的页面中

然后将cookie复制出来
在这里插入图片描述
cookie也在Request Headers 请求头中

可以直接写入headers中

heaedrs={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
	   ,'Cookie':'xxxxxx'
}