性能测试-关于阿里云PTS使用与思考

1、性能测试必要性

官话:性能测试能帮助用户更好地从技术上来规避系统上线后的风险、评估线上系统的真实能力、根据业务模型摸底线上能力以提前应对

个人理解:服务器有性能瓶颈,用户的操作对于服务器会有影响,但是用户什么操作、多大量的操作,对服务端的内存有影响还是cpu有影响、多大的影响、服务器能否承受,不知道。用户和服务器的关系,其实是灰度的、不可量化的。

而性能测试,可以通过一定的测试策略,在模糊地带找到用户和服务器之间的丝丝关系点,且能量化评估,这是第一点。第二点,性能测试可以来找到整个系统真正的瓶颈(问题点)在哪里,而避免无厘头的扩容来造成成本浪费。

优化一个体系,第一件事一定是提供测试方法和测试指标。

性能测试的效果和具体的测试策略有关,这点我不在本文讨论。本文仅介绍性能测试的整体思路和技术实现

2、性能测试环境选择

测试环境分为生产环境和测试环境

在生产环境测试,精准度较高,参考效果更好,但是需要清理相关的测试数据,且可能会对实际业务造成影响

在测试环境测试,风险可控,难点在于环境的构建和压测的准确性,规模和生产一致的成本也是最高的,所以一般而言有通过等比构建(1/2,1/4,1/8等),甚至是生产环境中部分应用独立部署测试集群,数据库共用的方式。

测试环境搭建需要考虑与生产环境的联系:架构、机型、中间件、系统参数、数据库

3、性能测试指标

交易响应时间(RT):推荐响应在1s一下
TPS(Transaction per Second):系统每秒处理交易数,单位是笔/秒。推荐500 TPS~10000 TPS,越大越好
QPS(Query per Second):系统每秒处理查询次数,单位是次/秒
并发用户(VU):并发用户数指在同一时刻内,登录系统并进行业务操作的用户数量

资源指标
CPU:主要指的CPU使用率
Memory:内存利用率
云盘使用率:磁盘使用率
IOPS:磁盘每秒读写次数(次/s)
云盘读写BPS:侧畔读写的数据量Byte/s
网络吞吐量:无网络故障的情况下单位时间内通过的网络的数据量(内网/外网)。单位为Byte/s

中间件指标
GC频率:每秒多少次,Java虚拟机垃圾部分回收频率
Full GC频率:每小时多少次,Java虚拟机垃圾完全回收频率,FULL GC不能频繁,JVM最小堆大小和最大堆大小分别设置1024 M比较合适
Full GC平均时长:秒,用于垃圾完全回收的平均时长
Full GC最大时长:秒,用于垃圾完全回收的最大时长
Active Thread Count:个,活动的线程数,线程数最小值设置50和最大值设置200比较合适
JDBC Active Connection:个,JDBC活动连接数,JDBC最小值设置50和最大值设置200比较合适

数据库指标
SQL:执行SQL耗时
TPS:每秒事务次数
命中率:命中率越高越好

前端指标
首次显示时间:在浏览器地址栏输入URL按回车到用户看到网页的第一个视觉标志为止
完全载入的时间:所有onLoad JavaScript处理程序执行完毕,所有动态的或延迟加载的内容都通过这些处理程序触发的时间
连接时间:连接时间就是浏览器与Web服务器建立TCP/IP连接的时间
服务器时间:服务器处理时间

稳定性指标
最短稳定时间:系统按照最大容量的80%或标准压力(系统的预期日常压力)情况下运行,能够稳定运行的最短时间。至少保证系统稳定运行24小时以上

  • TPS曲线稳定,没有大幅度的波动。
  • 各项资源指标没有泄露或异常情况。

4、可能存在的性能瓶颈

在这里插入图片描述
1、硬件、规格上的瓶颈
一般指的是CPU、内存、磁盘I/O方面的问题,分为服务器硬件瓶颈、网络瓶颈(对局域网可以不考虑)。

2、中间件上的性能瓶颈
一般指的是应用服务器、web服务器等应用软件,还包括数据库系统。 例如:中间件weblogic平台上配置的JDBC连接池的参数设置不合理,造成的瓶颈。

3、应用程序上的性能瓶颈
一般指的是开发人员开发出来的应用程序。 例如,JVM参数不合理,容器配置不合理,慢SQL(可使用阿里云APM类产品如ARMS协助定位),数据库设计不合理,程序架构规划不合理,程序本身设计有问题(串行处理、请求的处理线程不够、无缓冲、无缓存、生产者和消费者不协调等),造成系统在大量用户访问时性能低下而造成的瓶颈。

4、操作系统上的性能瓶颈
一般指的是windows、UNIX、Linux等操作系统。 例如,在进行性能测试,出现物理内存不足时,虚拟内存设置也不合理,虚拟内存的交换效率就会大大降低,从而导致行为的响应时间大大增加,这时认为操作系统上出现性能瓶颈。

5、网络设备上的性能瓶颈
一般指的是防火墙、动态负载均衡器、交换机等设备。当前更多的云化服务架构使用的网络接入产品:包括但不限于SLB、WAF、高防IP、CDN、全站加速等等。 例如,在动态负载均衡器上设置了动态分发负载的机制,当发现某个应用服务器上的硬件资源已经到达极限时,动态负载均衡器将后续的交易请求发送到其他负载较轻的应用服务器上。在测试时发现,动态负载均衡器没有起到相应的作用,这时可以认为网络瓶颈。

5、性能测试流程管理

性能测试的出发点(具体性能测试的策略还是需要细细研究,和实际业务相关):

1、在测试阶段,在测试环境进行测试。单元测试时针对接口做性能测试,集成测试时针对整体做压测

2、在新品发布等高并发场景之前,对于正式环境的主要接口做性能测试

6、性能测试方法(具体看阿里云文档)

这边我推荐阿里云的PTS性能测试服务,可以满足压测的日常能力,且费用不高,阿里云文档:https://help.aliyun.com/document_detail/29262.html

PTS有以下优点

1、相比较开源产品JMeter,PTS学习成本低,无需自己安装,适合没这方面经验的人员快速上手

2、有比较好的接口管理功能,适合团队使用

3、方便监控阿里云服务,能提供梯度压测策略

4、压测结束后有压测报告,可视化程度高

以下我以正式环境的商品热搜管理接口为例,在PTS做性能测试
1、登录阿里云控制台,创建PTS压测
在这里插入图片描述
2、增加一个API接口,这边支持多个接口多个模板,我这边就一个API接口,填写接口信息
在这里插入图片描述
3、调试一下API
在这里插入图片描述
4、填写施压配置,具体参数说明请看阿里云文档,我这边列上我的参数
在这里插入图片描述
5、填写高级设置,这边填上我的配置
在这里插入图片描述
6、在压测监控增加要监控的slb、ecs、RDS信息,我这边监控线上的两台服务器
在这里插入图片描述
7、填写SLA定义,SLA是判定压测是否异常的重要依据,发现异常自动化终止压测。原则上正式环境压测必须要配SLA,我这边因为并发量很小就没有配
在这里插入图片描述
8、调试下场景,没有问题后就点击保存去压测
在这里插入图片描述

### 阿里云性能测试 PTS 使用指南 #### 功能介绍 阿里云性能测试服务(Performance Testing Service, PTS)是一个基于云端的自动化负载生成工具,旨在帮助开发者和企业评估Web应用程序和服务在不同压力条件下的表现。该服务平台提供了强大的分布式压测能力,能够模拟大量并发用户的访问请求来检测系统的响应速度、吞吐量以及稳定性等指标[^1]。 #### 如何使用 为了有效地利用PTS执行性能测试,用户可以遵循以下操作流程: - **创建项目**:登录至阿里云控制台,在其中新建一个用于承载特定应用或API接口的压力测试计划。 - **配置场景**:设定好待测目标URL地址及相关参数;定义虚拟用户数量及其行为模式——这决定了整个过程中产生的流量特征。 - **启动测试**:确认各项设置无误之后点击运行按钮即可开始正式施加负荷于被试对象之上。 - **监控反馈**:实时查看仪表板上显示的各项统计数据图表,以便及时掌握当前状况并对异常情况进行处理。 - **报告分析**:结束后系统会自动生成详尽的结果文档供进一步解读优化建议参考之用。 ```bash # 登录阿里云控制台并导航到PTS页面 https://www.aliyun.com/product/pts ``` #### 最佳实践 当准备实施一次有效的性能测试时,应当注意以下几个方面以确保获得可靠的数据支持决策制定过程: - 明确目的范围:提前规划好想要验证的具体内容是什么样的工作负载级别下系统的表现形式最为重要。 - 设计合理脚本:编写能充分反映真实业务逻辑特性的测试案例集,并考虑到可能存在的边界情况。 - 渐增式加载:采用逐步增加并发数的方式来进行探索性研究而非一次性达到峰值以免造成不必要的资源浪费甚至崩溃风险。 - 多次重复试验:鉴于网络环境波动等因素的影响每次得到的成绩可能存在差异因此有必要多次测量取平均值作为最终评判依据。 - 综合考量因素:除了关注TPS/QPS这类量化型KPI之外还需兼顾CPU利用率内存占用率磁盘I/O速率等方面的变化趋势综合评价整体效能水平。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值