Python:爬虫基础知识总结

#2.1
# URI:统一资源标志符  URL:统一资源定位符    URN:统一资源名称   只命名资源而不定位资源
#URL是URI的子集     URI包含URL和URN


#HTTP:超文本传输协议
#HTTPS:HTTP的安全版,传输的内容经过SSL加密


#网络请求包含
#name:请求的名称,一般会将URL的最后一部分内容当做名称
#status:响应的状态码  200代表正常响应
#type:请求的文档的类型
#initiator:请求源,用来标记是由哪个对象或进程发起的
#size:从服务器下载的文件和请求资源的大小
#time:发起请求到获得响应所用的时间
#waterfall:网络请求的可视化瀑布

#general:request URL(请求的URL)、request method(请求的方法)、status code:响应的状态码
# remote address(远程服务器的地址和端口)、referrer policy(referrer的判别策略)



#请求:
#请求方法:post、get
#get:在浏览器中直接输入URL回车即发起了一个get请求
#post:大多在表单提交时发起,其数据通过表单的形式传输

#区别:
#get请求中的参数包含在URL里,数据可以在URL中看到,而post请求的URL不会包含这些数据,数据都是通过表单的形式传输的,会包含在请求体中
#get请求提交的数据最多只有1024个字节,而post方式没有限制


#请求的网址:统一资源定位符,可以唯一确定想要请求的资源

#请求头:说明服务器要使用的附加信息
#accept:请求报头域,用于指定客户端可接受哪些类型的信息
#accept-language:客户端可接受的语言类型
#accept-encoding:客户端可接受的内容编码
#host:指定请求资源的主机IP和端口号
#cookie:维持当前的访问对话(登录某个网站后,访问该网站的其他页面,都会显示在登录状态)
#referrer:标识请求是从哪个页面发过来的
#user-agent:简称UA,特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本的信息,加上此信息,可以伪装为服务器,
# 如果没有,容易被识别出是爬虫
#content-type:表示具体请求中的媒体信息的类型
#请求体:post请求中的表单数据、get的请求体为空


#响应
#响应状态码:服务器的响应状态   200代表成功   500代表内部出现错误  404代表页面没找到
#响应头:服务器对请求的应答信息
#date:表示响应产生的时间
#last-modified:指定资源的最后修改时间
#content-encoding:响应内容的编码
#server:服务器的信息
#content-type:文档的类型
#set-cookie:设置cookie
#expires:指定响应的过期时间
# 响应体:响应的正文数据


# 2.2网页基础
#网页的组成:HTML、CSS、JavaScript
#无状态HTTP:HTTP协议对事物处理是没有记忆的,也就是说服务器不知道客户端处在什么状态
#解决无状态HTTP:会话和cookie
#会话:在服务端,保存用户的会话信息   会话对象存储特定用户会话所需要的属性及配置信息
#cookie:在客户端,浏览器在下次访问网页的时候自动带上cookie发送给服务器

#在成功登陆了某个网站之后。服务器会告诉客户端设置哪些cookie信息,在后续访问页面时客户端会把cookie发送给
# 服务器,服务器再找到响应的会话加以判断。


#cookie
#name:cookie的名称,一旦创建,该名称便不可更改
#value:cookie的值
#domain:可以访问该cookie的域名
#maxage:该cookie失效的时间
#path:该cookie的使用路径
#size:此cookie的大小
#http字段:cookie的HTTPonly值
#secure:该cookie是否被使用安全协议传输


#注:关闭浏览器并不会导致会话被删除,而是会话超过失效的时间,服务器就会认为客户端就已经停止了活动,才会把
# 会话删除以节省空间


#使用代理可以实现IP的伪装,解决反爬虫问题

#代理的作用:
# 突破自身IP访问限制,访问一些平时不能访问的站点
#访问一些单位或团体的内部资源
#提高访问速度
#隐藏真实的IP


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值