极客大学架构师训练营 性能优化 性能测试指标 性能测试 性能优化 CDN 网络 硬盘 缓存 异步 集群 第13课 听课总结

说明

讲师:李智慧

架构师用了很多优化手段,如何给老板证明,性能提升了呢?

性能测试

性能测试是性能优化的前提和基础,也是性能优化结果的检查和度量标准。不同视角下的网站性能有不同的标准,也有不同的优化手段。

  • 主观视角:用户感受到的性能。
    (支付转账场景,用户点击转账后,有个倒计时的页面,即时反馈给用户,让用户感受到快。)
  • 客观视角:性能指标衡量的性能。

性能测试指标

不同视角下有不同的性能标准,不同的标准有不同的性能测试指标,网站性能测试的主要指标有响应时间、并发数、吞吐量、性能计数器等。

响应时间

响应时间:指应用系统从发出请求开始到收到最后响应数据所需要的时间。响应时间是系统最重要的性能指标,直观的反映了系统的“快慢”。

并发数

并发数:系统能够同时处理请求的数目,这个数字也反映了系统的负载特性。对于网站而言,并发数即系统并发用户数,指同时提交请求的用户数目,于此相对应,还有在线用户数(当前登录系统的用户数)和系统用户数(可能访问系统的总用户数)。

吞吐量

吞吐量:指单位时间内系统处理的请求的数量,体现系统的处理能力。对于网站,可以用 “请求数/秒” 或是 “页面数/秒” 来衡量,也可以用 “访问人数/天” 或是 “处理的业务数/小时” 等来衡量。

  • TPS(每秒事务数)也是吞吐量的一个指标,此外还有HPS(每秒HTTP请求数)。
  • QPS(每秒查询数)。

吞吐量 = (1000 / 响应时间ms) * 并发数

性能计数器

性能计数器:是描述服务器或操作系统性能的一些数据指标。包括 System Load、对象与线程数、内存使用、CPU 使用、磁盘与网络 I/O 等指标。这些指标也是系统监控的重要参数,对这些指标也是系统监控的重要参数,对这些指标设置报警阀值,当监控系统发现性能计数器超过阀值的时候,就向运维和开发人员报警,及时发现处理系统异常。

Top 命令查看,Load Avg:正在处理的线程数 + 正在等待的线程数,三个时间段的平均时间。理想情况下是CPU的核数。
如果大于CPU的核数,表示CPU过载;如果小于CPU的核数,表示CPU空闲,资源利用不足。在这里插入图片描述

性能测试方法

性能测试是一个总称,具体可细分为性能测试、负载测试、压力测试、稳定性测试。

性能测试

以系统设计初期规划的性能指标为预期目标,对系统不断施加压力,验证系统在资源可接收范围内,是否能达到性能预期。

负载测试

对系统不断地增加并发请求以增加系统压力,直到系统的某项或多项性能指标达成安全临界值,如某种资源已经呈饱和状态,这时候继续对系统施加压力,系统的处理能力不但不能提高,反而会下降。

压力测试

超过安全负载的情况下,对系统继续施加压力,知道系统崩溃或不能再处理任何请求,以获得系统最大压力承受能力。

稳定性测试

被测试系统在特定硬件、软件、网络环境条件下,给系统加载一定业务压力,使系统运行一段较长时间,以此检测系统是否稳定。在生产环境,请求压力是不均匀的,呈波浪特性,因此为了更好地模拟生产环境,稳定性测试也应不均匀地对系统施加压力。

TPS

在这里插入图片描述
性能测试目标: 要把这条曲线测出来。
性能测试:a~b 并发数增加,TPS快速增加。
负载测试:b~c 并发数增加,TPS增长速度变小。
压力测试:c~d 并发数增加,TPS反而开始下降。

让系统在b点位置左右运行;如果在c点位置左右,那么就很容易系统奔溃了。
到底是在b点位置的左还是右呢?这要依赖于投资多少钱的机器。如果要省钱,那么在b点靠右的位置,安全性会低一点,到达c点比较危险。如果不差钱,那么可以多加机器(比如银行),那么就在b点靠左的位置。

响应时间

在这里插入图片描述
通常瓶颈点在于磁盘和内存数。

并发数响应时间(ms)TPS错误率(%)Load内存(G)备注
1050020058性能测试
208003001010性能测试
3010004021514性能测试
40120045203016性能测试
60200030405016性能测试
800100性能测试

基于Flower的应用重构性能测试

在这里插入图片描述

性能测试压测可用性

在这里插入图片描述
重构前

Flower重构后
在这里插入图片描述

软件性能优化的两个基本原则

  • 你不能优化一个没有测试的软件。
  • 你不能优化一个你不了解的软件。

新来架构师,一看系统就觉的技术架构很落伍,要用业界比较牛的架构重构。一般这种架构师撑不过试用期。别这样,千万别这样。毕竟技术团队花了很长的时间在这套系统里面,要先了解系统。了解问题,比掌握技术更关键。不要盲目的那所谓的牛逼技术到处用。不要拿着锤子🔨去砸钉子,要先找到钉子。

性能测试的主要指标

  • 响应时间:完成一次任务花费的时间。
  • 并发数:同时处理的任务数。
  • 吞吐量:单位时间完成的任务数。
  • 性能计数器:System Load, 线程数,进程数,CPU,内存,磁盘,网络使用率。

Spark 应用性能测试

在这里插入图片描述
很多个Task在执行

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

性能优化的一般方法

  • 性能测试,获得性能指标。
  • 指标分析,发现性能与资源瓶颈点。
  • 架构与代码分析,寻找性能与资源瓶颈关键所在。
  • 架构与代码优化,优化关键技术点,平衡资源利用。
  • 性能测试,进入性能优化闭环。

系统性能优化的分层思想

  • 机房与骨干网络性能优化。
  • 服务器与硬件性能优化。(垂直伸缩)
  • 操作系统性能优化。
  • 虚拟机性能优化。(垃圾回收性能优化,锁对性能的优化)
  • 基础组件性能优化
  • 软件架构性能优化
  • 软件代码性能优化

机房与骨干网络性能优化

  • 异地多活的多机房架构。
  • 专线网络与自主 CDN 建设。
    在这里插入图片描述
    从美国到中国网络传输需要300ms左右时间。就近提供机房,让用户快速访问。这是任何软件技术都解决不了的问题。

服务器与硬件性能优化

使用更优的CPU,磁盘,内存,网卡,对软件的性能优化可能是数量级的,有时候远远超过代码和架构的性能优化。
在这里插入图片描述

硬件性能优化案例

Spark 作业过程需要传输大量数据,进行资源瓶颈分析,发现大量时间消耗在网络传输上。
在这里插入图片描述
解决方案:压缩数据。(压缩以及解压缩,会增加CPU的负担,得不偿失。)

优化方案:升级网卡,10G网卡代替1G网卡。

操作系统性能优化案例

资源利用分析,发现大量 CPU 操作为 sys 类型,消耗大量计算资源。

调查发现,起因是部分 Linux 版本缺省情况下打开 transparent huge page 导致。

优化方案:关闭 transparent huge page
在这里插入图片描述

虚拟机性能优化

在这里插入图片描述
在这里插入图片描述
虚拟机垃圾回收的期间,全世界都停下来了。Stop-the-world

基础组件性能优化

在这里插入图片描述
阿里巴巴应用服务器升级项目,采用Jetty 7.1.5 代替 JBoss 4.05 GA。
性能大幅提升,阿里巴巴全站下线 1/3 应用服务器,明年不用采购新机器。

  • 架构更轻量;
  • 配置更简单;
  • 应用更无状态化,开发和维护的福音;
  • 更加安全。

阿里巴巴应用服务器升级项目:
Apache2.2 + Mod - Proxy + Jetty 7.1.5 与阿里巴巴现有架构性能对比
在这里插入图片描述

软件架构性能优化三板斧

  • 缓存
  • 异步
  • 集群

缓存

  • 从内存获取数据,减少响应时间。
  • 减少数据库访问,降低存储设备负载压力。
  • 缓存结果对象,而不是原始数据,减少 CPU 计算。
  • 缓存主要优化读操作。

在这里插入图片描述

异步

  • 即时响应,更好的用户体验。
  • 控制消费速度,合适的负载压力。
  • 异步主要优化写操作。

在这里插入图片描述

在这里插入图片描述

集群

古老谚语:如果一匹马拉不动车,无需换一匹更强的马,而是用两匹马拉车。
互联网技术的发展路径是:更多的用户访问需要消耗更多的计算机资源,单一服务器计算资源的增加是有极限的,所以需要增加更多的服务器。关键是如何利用起来这些服务器。
集群的技术目标只有一个:如何使很多台服务器对使用者而言看起来像一台服务器。
在这里插入图片描述

2010年京东刚火起来,第一天,服务器崩溃,网站一天不可用。刘强东发一条微博,请信息部喝茶,放了一把刀的图片。第二天,服务器照样崩溃,网站又一天不可用。刘强东再发一条微博,请信息部喝茶,送了信息部900台服务器。第三天,服务器照样崩溃,网站依然一天不可用。科学技术需要技术手段解决,刀子和服务器都不能简单的使用。

软件代码性能优化

遵循面向对象的设计原则与设计模式编程,很多时候程序性能不好不是因为性能上有什么技术挑战,仅仅就是因为代码太烂了。

  • 并发编程,多线程与锁。
  • 资源复用,线程池与对象池。
  • 异步编程,生产者与消费者。
  • 数据结构,数组、链表、hash表、树。

代码优化案例

Spark 任务文件初始化调优

  • 资源分析,发现第一个 stage 时间特别长,耗时长达 14s,CPU 和网络通信有一定开销,不符合应用代码逻辑。

在这里插入图片描述
打开 Spark 作业 log,分析这段时间的 Spark 运行状况。
根据 log 分析结果,阅读 Spark 相关源码。
发现 Spark 在任务初始化加载应用代码的时候,每个 Executor 都加载一次应用代码,当时没太服务器最多可启动48个 Executor,每个应用代码包 17M 大小,导致加载开销巨大。

  • 优化方案: Executor 加载应用程序包启用本地文件缓存模式。[SPARK-2713]
  • 优化效果:Stage1 运行时间从14s下降到不到1s。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值