n2. Web相关知识和工具

1. http协议相关基础知识

URI: Uniform Resource Identifier 统一资源标识,分为URL 和 URN

URN:Uniform Resource Naming,统一资源命名

URL:Uniform Resorce Locator,统一资源定位符,用于描述某服务器某特定资源位置

两者区别:URN如同一个人的名称,而URL代表一个人的住址。换言之,URN定义某事物的身份,而 URL提供查找该事物的方法。URN仅用于命名,而不指定地址

URL组成

<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

scheme:		方案,访问服务器以获取资源时要使用哪种协议
user:		用户,某些方案访问资源时需要的用户名
password:	密码,用户对应的密码,中间用:分隔
Host:		主机,资源宿主服务器的主机名或IP地址
port:		端口,资源宿主服务器正在监听的端口号,很多方案有默认端口号
path:		路径,服务器资源的本地名,由一个/将其与前面的URL组件分隔
params:		参数,指定输入的参数,参数为名/值对,多个参数,用;分隔
query:		查询,传递参数给程序,如数据库,用?分隔,多个查询用&分隔
frag:		片段,一小片或一部分资源的名字,此组件在客户端使用,用#分隔

网站访问量统计的重要指标

  • IP(独立IP):即Internet Protocol,指独立IP数。一天内来自相同客户机IP 地址只计算一次,记录远 程客户机IP地址的计算机访问网站的次数,是衡量网站流量的重要指标
  • PV(访问量): 即Page View, 页面浏览量或点击量,用户每次刷新即被计算一次,PV反映的是浏览 某网站的页面数,PV与来访者的数量成正比,PV并不是页面的来访者数量,而是网站被访问的页 面数量
  • UV(独立访客):即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算 一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过cookies实现的。如 果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的

**Web资源:**web resource, 一个网页由多个资源(文件)构成,打开一个页面,通常会有多个资源展 示出来,但是每个资源都要单独请求。因此,一个"Web 页面”通常并不是单个资源,而是一组资源的集 合

资源类型:

  • 静态文件:无需服务端做出额外处理,服务器端和客户端的文件内容相同
    • 常见文件后缀:.html, .txt, .jpg, .js, .css, .mp3, .avi
  • 动态文件:服务端执行程序,返回执行的结果,服务器端和客户端的文件内容不相同
    • 常见文件后缀:.php, .jsp ,.asp

HTTP请求报文

  方法        URL         版本 
<method> <request-URL> <version>
<headers>
<entity-body>

Method 方法
请求方法,标明客户端希望服务器对资源执行的动作,包括以下:
GET: 	从服务器获取一个资源
HEAD: 	只从服务器获取文档的响应首部
POST: 	向服务器输入数据,通常会再由网关程序继续处理
PUT: 	将请求的主体部分存储在服务器中,如上传文件
DELETE: 请求删除服务器上指定的文档
TRACE: 	追踪请求到达服务器中间经过的代理服务器
OPTIONS:请求服务器返回对指定资源支持使用的请求方法
CONNECT:建立一个到由目标资源标识的服务器的隧道
PATCH:	用于对资源应用部分修改

HTTP响应报文

   版本     状态码        短语
<version> <status> <reason-phrase>
<headers>
<entity-body>

2. http协议状态码

http协议状态码分类

1xx:100-101 信息提示
2xx:200-206 成功
3xx:300-307 重定向
4xx:400-415 错误类信息,客户端错误
5xx:500-505 错误类信息,服务器端错误

http协议常用的状态码

200: 成功,请求数据通过响应报文的entity-body部分发送;OK
301: 请求的URL指向的资源已经被删除;但在响应报文中通过首部Location指明了资源现在所处的新位置;Moved Permanently
302: 响应报文Location指明资源临时新位置 Moved Temporaril
304: 客户端发出了条件式请求,但服务器上的资源未曾发生改变,则通过响应此响应状态码通知客户端;Not Modified
307:  浏览器内部重定向
401: 需要输入账号和密码认证方能访问资源;Unauthorized
403: 请求被禁止;Forbidden,一般是因为权限错误或主页文件不存在
404: 服务器无法找到客户端请求的资源;Not Found
413:  上传的资源超过了最大限制值
499: 客户端读超时关闭连接的错误码 499是客户端读超时关闭连接造成的,推荐从超时时间或者优化响应速度入手,web服务器发现客户端主动关闭连接后,记录到access日志中的。可能是客户端接收响应超时了,可以先在客户端统计下是不是这个原因,再调查为什么会导致超时
500: 服务器内部错误;Internal Server Error,比如:cgi程序没有执行权限,或连接数据库失败
502: 代理服务器从后端服务器收到了一条伪响应,如无法连接到网关;Bad Gateway,比如:后端服务端口没有打开,或后端服务不可用
503: 服务不可用,临时服务器维护或过载,服务器无法处理请求,比如:超过连接数和连接频率
504: 网关超时,或者后端服务器无回应报文,比如:服务端口虽然打开,但服务返回结果时间过长

3. Web相关工具

2.1 links
links [OPTION]... [URL]...

常用选项:
-dump 	非交互式模式,显示输出结果
-source 打印源码
2.2 wget
wget [OPTION]... [URL]...

#启动
-V, -version 			显示wget的版本后退出
-h, -help 				打印语法帮助
-b, -background 		启动后转入后台执行
-e, -execute=COMMAND 	执行`.wgetrc'格式的命令,wgetrc格式参见/etc/wgetrc或~/.wgetrc

#记录和输入文件
-o, -output-file=FILE 	把记录写到FILE文件中
-a, -append-output=FILE 把记录追加到FILE文件中
-d, -debug 				打印调试输出
-q, -quiet 				安静模式(没有输出)
-v, -verbose 			冗长模式(这是缺省设置)
-nv, -non-verbose 		关掉冗长模式,但不是安静模式
-i, -input-file=FILE 	下载在FILE文件中出现的URLs
-F, -force-html 		把输入文件当作HTML格式文件对待
-B, -base=URL 			将URL作为在-F -i参数指定的文件中出现的相对链接的前缀
-sslcertfile=FILE 		可选客户端证书
-sslcertkey=KEYFILE 	可选客户端证书的KEYFILE
-egd-file=FILE 			指定EGD socket的文件名

#下载
-bind-address=ADDRESS		指定本地使用地址(主机名或IP,当本地有多个IP或名字时使用)
-t, -tries=NUMBER 			设定最大尝试链接次数(0 表示无限制).
-O -output-document=FILE 	把文档写到FILE文件中
-nc, -no-clobber 			不要覆盖存在的文件或使用.#前缀
-c, -continue 				接着下载没下载完的文件
-progress=TYPE 				设定进程条标记
-N, -timestamping 			不要重新下载文件除非比本地文件新
-S, -server-response 		打印服务器的回应
-spider 					不下载任何东西
-T, -timeout=SECONDS 		设定响应超时的秒数
-w, -wait=SECONDS 			两次尝试之间间隔SECONDS-waitretry=SECONDS 			在重新链接之间等待1…SECONDS秒
-random-wait 				在下载之间等待0…2*WAIT秒
-Y, -proxy=on/off 			打开或关闭代理
-Q, -quota=NUMBER 			设置下载的容量限制
-limit-rate=RATE 			限定下载输率

#目录
-nd -no-directories 			不创建目录
-x, -force-directories 			强制创建目录
-nH, -no-host-directories 		不创建主机目录
-P, -directory-prefix=PREFIX 	将文件保存到目录 PREFIX/…
-cut-dirs=NUMBER 				忽略 NUMBER层远程目录

#HTTP 选项
-http-user=USER 		设定HTTP用户名为 USER.
-http-passwd=PASS 		设定http密码为 PASS.
-C, -cache=on/off 		允许/不允许服务器端的数据缓存 (一般情况下允许).
-E, -html-extension 	将所有text/html文档以.html扩展名保存
-ignore-length 			忽略 `Content-Length'头域
-header=STRING 			在headers中插入字符串 STRING
-proxy-user=USER 		设定代理的用户名为 USER
-proxy-passwd=PASS 		设定代理的密码为 PASS
-referer=URL 			在HTTP请求中包含 `Referer: URL'头
-s, -save-headers 		保存HTTP头到文件
-U, -user-agent=AGENT 	设定代理的名称为 AGENT而不是 Wget/VERSION.
-no-http-keep-alive 	关闭 HTTP活动链接 (永远链接).
-cookies=off 			不使用 cookies.
-load-cookies=FILE 		在开始会话前从文件 FILE中加载cookie
-save-cookies=FILE 		在会话结束后将 cookies保存到 FILE文件中

#FTP 选项
-nr, -dont-remove-listing 	不移走 `.listing'文件
-g, -glob=on/off 			打开或关闭文件名的 globbing机制
-passive-ftp 				使用被动传输模式 (缺省值).
-active-ftp 				使用主动传输模式
-retr-symlinks 				在递归的时候,将链接指向文件(而不是目录)

#递归下载
-r, -recursive 			递归下载--慎用!
-l, -level=NUMBER 		最大递归深度 (inf 或 0 代表无穷).
-delete-after 			在现在完毕后局部删除文件
-k, -convert-links 		转换非相对链接为相对链接
-K, -backup-converted 	在转换文件X之前,将之备份为 X.orig
-m, -mirror 			等价于 -r -N -l inf -nr.
-p, -page-requisites 	下载显示HTML文件的所有图片

#递归下载中的包含和不包含(accept/reject)
-A, -accept=LIST 				分号分隔的被接受扩展名的列表
-R, -reject=LIST 				分号分隔的不被接受的扩展名的列表
-D, -domains=LIST 				分号分隔的被接受域的列表
-exclude-domains=LIST 			分号分隔的不被接受的域的列表
-follow-ftp 					跟踪HTML文档中的FTP链接
-follow-tags=LIST 				分号分隔的被跟踪的HTML标签的列表
-G, -ignore-tags=LIST 			分号分隔的被忽略的HTML标签的列表
-H, -span-hosts 				当递归时转到外部主机
-L, -relative 					仅仅跟踪相对链接
-I, -include-directories=LIST 	允许目录的列表
-X, -exclude-directories=LIST 	不被包含目录的列表
-np, -no-parent 				不要追溯到父目录

常用选项: 
-q 				静默模式
-c 				断点续传
-P /path 		保存在指定目录
-O filename 	保存为指定文件名,filename 为 - 时,发送至标准输出
--limit-rate= 	指定传输速率,单位K,M等
2.3 curl

curl是基于URL语法在命令行方式下工作的文件传输工具,它支持FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE及LDAP等协议。curl支持HTTPS认证,并且支持HTTP的POST、PUT等方法, FTP 上传, kerberos认证,HTTP上传,代理服务器,cookies,用户名/密码认证, 下载文件断点续传,上 载文件断点续传, http代理服务器管道( proxy tunneling),还支持IPv6,socks5代理服务器,通过 http代理服务器上传文件到FTP服务器等,功能十分强大

curl [options] [URL...]

-A/--user-agent <string> 		设置用户代理发送给服务器
-e/--referer <URL> 				来源网址
--cacert <file> 				CA证书 (SSL)
-k/--insecure   				允许忽略证书进行 SSL 连接
--compressed 					要求返回是压缩的格式
-H/--header "key:value” 		自定义首部字段传递给服务器
-i 								显示页面内容,包括报文首部信息
-I/--head 						只显示响应报文首部信息
-D/--dump-header <file>			将url的header信息存放在指定文件中
--basic 						使用HTTP基本认证
-u/--user <user[:password]>		设置服务器的用户和密码
-L   							如果有3xx响应码,重新发请求到新位置
-O 								使用URL中默认的文件名保存文件到本地
-o <file> 						将网络文件保存为指定的文件中
--limit-rate <rate> 			设置传输速度
-0/--http1.0 					数字0,使用HTTP 1.0
-v/--verbose 					更详细
-C 								选项可对文件使用断点续传功能
-c/--cookie-jar <file name> 	将url中cookie存放在指定文件中
-x/--proxy <proxyhost[:port]> 	指定代理服务器地址
-X/--request <command> 			向服务器发送指定请求方法
-U/--proxy-user <user:password> 代理服务器用户和密码
-T 								选项可将指定的本地文件上传到FTP服务器上
--data/-d 						方式指定使用POST方式传递数据
-s --silent   					Silent mode
-b name=data 					从服务器响应set-cookie得到值,返回给服务器
-w <format> 					显示相应的指定的报文信息,如:%{http_code},%{remote_ip}等
-m, --max-time <time> 			允许最大传输时间
2.4 httpie

HTTPie 工具是功能丰富的 HTTP 命令行客户端,它能通过命令行界面与 Web 服务进行交互。它提供一 个简单的 http 命令,允许使用简单而自然的语法发送任意的 HTTP 请求,并会显示彩色的输出

HTTPie 能用于测试、调试及与 HTTP 服务器交互。

官方网站:https://httpie.org

主要特点:
具表达力的和直观语法
格式化的及彩色化的终端输出
内置 JSON 支持
表单和文件上传
HTTPS、代理和认证
任意请求数据
自定义头部
持久化会话
类似 wget 的下载
支持 Python 2.73.x


[root@Ubuntu2204 ~]#apt -y install httpie

[root@centos8 ~]#yum install httpie -y

4. httpd的压力测试工具

  • ab, webbench, http_load, seige
  • Jmeter 开源 Loadrunner 商业,有相关认证
  • tcpcopy:网易,复制生产环境中的真实请求,并将之保存

ab 来自httpd-tools包

ab [OPTIONS] URL 

-n:总请求数
-c:模拟的并发数
-k:以持久连接模式测试
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值