高性能程序设计，缓存为王

最新推荐文章于 2024-09-02 07:15:00 发布

互联网全栈架构

最新推荐文章于 2024-09-02 07:15:00 发布

阅读量406

点赞数

640?wx_fmt=jpeg

作者 | 一凡sir，全栈工程师，慕课网精英讲师

来源 | 慕课网（imooc.com)

640?wx_fmt=gif

背景

我们在程序设计时，有一个极其重要的非功能性指标：性能，总是无时无刻不缠绕在程序员的脑海，尤其是我们开发的面向大众的Web服务，网络接口等程序。

当然，高性能的程序设计也会更加复杂，开发也有更大难度。

这次的内容，我们面向高性能程序设计方向，来讲一讲其中最核心最重要的缓存。

大纲：

1 高性能程序与时间、空间的关系
2 无处不在的缓存，硬件与软件
3 系统中的缓存设计
4 总结，缓存为王

0 找找看，人体中的缓存、缓冲区

头

大脑的短时记忆和长期记忆，外部持久存储的书籍
短期、长期记忆，比临时查阅书籍更快、更灵活
计算机有非常强大的存储、检索和运算能力，可以作为大脑非常好的补充

颈椎

上接头部，下衔接胸椎，承上启下，多节
头部与胸部的衔接，保证灵活性
颈椎病、腰间盘突出，问题是类似的，长期保持同一个姿势造成无法修复的劳损
建议多做以下动作：上九天揽月，下五洋捉鳖，简化后就是“抬头，转体”

胸腹

大量的冗余空间，孕妇和胖子的潜力
更大的冗余区，更好地支持生育和度过饥荒
可惜，时代变了，审美变了，这倒是成了缺点

关节

软骨、关节腔，避免骨头硬碰硬和磨损
提供了足够的灵活性，减少冲击和磨损
既要硬，又要灵活，还要做杠杆运动，真是难为了关节

脚

减震
扁平足，失去了减震和缓冲
NBA球星麦迪就是扁平足，而且他的技术动作不合理，所以一直受伤病困扰

1 高性能程序与时间、空间的关系

哪种地铁闸机，占用空间小、过关快、体验好、可靠性好、安全性好？还有更多类型的闸机可以比较的。

1.1 性能，速度与时间

吞吐率：单位时间内处理的请求数
吞吐量：对网络、设备、端口、虚电路或其他设施，单位时间内成功地传送数据的数量
TPS：每秒钟系统能够处理事务或交易的数量
性能=速度=数量/时间，单位时间内处理的数量越多，性能越好

1.2 系统性能预估

CPU密集型，如：数据排序

假设：单次请求耗时 Tms，服务器CPU数量 C核，集群的服务器数量S台

IO密集型，如：依赖大量网络API/数据库/文件（IO耗时）

服务线程数量预估

1.3 降低单次请求执行时间

减少CPU运算量

减少IO耗时

利用缓存

最好的优化手段就是砍需求，没有代码就有最好的性能。

1.4 缓存，空间换时间

增加的缓存空间

增加的处理逻辑

减少的处理时间

离CPU越近的数据，处理越快；减少的处理逻辑就是优化的时间。缓存就是这个法宝。

1.5 缓存，是否多多益善

下面三种情况建议尽量使用缓存来做优化。

减少的处理时间显著（性能差异明显）

增加空间有限（成本提高）

增加的处理有限（开发难度，运算次数）

1.6 总结，高性能程序与时间、空间的关系

高性能程序设计，重点关注

空间换时间，缓存的优势

避免缓存的陷阱

2 无处不在的缓存，硬件与软件

CPU与内存
硬盘
网卡
操作系统
程序设计语言
Web服务器和数据库
CDN内容分发网络
DNS域名解析
Web浏览器

2.1 CPU与内存

640?wx_fmt=jpeg

CPU内的寄存器/L1/L2/L3

速度不一样
容量不一样
成本不一样

计算机内存

容量更大
成本更低
速度稍慢（比硬盘、网络快很多）

更多参考：并发编程与锁的底层原理（https://www.imooc.com/article/283248）

2.2 硬盘内的缓存

SATA传来的数据和盘片的实际操作间加一个缓冲

HDD的延迟是ms级别，缓存是ns级，相差数万倍
缓存容量增加，提高命中率
突然掉电导致数据丢失的风险增大
固态混合硬盘，内置8G/16G固态硬盘，缓存容量更大
固态硬盘，随机读写速度更快

为什么机械硬盘的缓存不是越大越好？

（https://www.zhihu.com/question/27030135）

缓存容量增加，带来的成本提高，突然掉电导致数据丢失的风险增大

2.3 网卡的发送/接收缓存

发送缓存

网卡有包就发，包太多了就放入缓存队列，缓存满了就丢包并且告诉系统丢包了
TCP协议具有流控和拥塞检测功能，防止发包太快造成丢包(UDP不可靠传输)
网卡接收数据，放入接收缓存，一次数据接收完成后，网卡驱动程序，向CPU发送信号，提示网卡有新数据到来。
操作系统从网卡的接收缓冲队列中读取数据，交给应用程序处理。

2.4 操作系统的缓存

缓冲文件系统

在内存开辟一个“缓冲区”，为程序中的每一个文件使用(读写文件先操作缓冲区)
fopen, fclose, fread, fwrite, fgetc, fgets, fputc, fputs, freopen, fseek, ftell, rewind等

网络相关缓存设置

/proc/sys/net/core/wmem_max 最大socket写buffer
/proc/sys/net/core/rmem_max 最大socket读buffer
/proc/sys/net/ipv4/tcp_wmem TCP写buffer
/proc/sys/net/ipv4/tcp_rmem TCP读buffer
/proc/sys/net/core/netdev_max_backlog 进入包的最大设备队列
/proc/sys/net/core/somaxconn listen()的默认参数,挂起请求的最大数量
/proc/sys/net/ipv4/tcp_max_syn_backlog 进入SYN包的最大请求队列

操作系统磁盘缓存，可以减少磁盘机械操作。更多参考：

不带缓冲区open和带缓冲区的fopen的区别

（https://blog.csdn.net/tanqiuwei/article/details/20641965）

linux 内核参数优化

（https://www.cnblogs.com/weifeng1463/p/6825532.html）

2.5 程序设计语言的缓存

PHP的缓存

opcache，省去了PHP源码到opcode的转换过程，并且保证脚本对应的opcode都保存在内存中
apcu，共享内存，缓存PHP程序中的用户数据
JIT，运行时生成机器码，比Java编译器优化后的bytecode性能更好
ehcache，缓存数据有两级：内存和磁盘

2.6 Web服务器和数据库

nginx中的缓存

减少应用服务器请求
proxy_cache，内容缓存在本地文件中

mysql中的缓存

减少文件系统I/O
SqlSession，直接返回结果（四种失效情况：Sql不同，条件不同，增删改操作，清空了缓存）
sort_buffer_size 排序缓冲区大小，超过的时候就用到磁盘中排序
join_buffer_size 每个联合查询分配的缓冲区
read_buffer_size 对MyISAM表进行全表扫描时分配的读缓存池的大小
read_rnd_buffer_size 索引缓冲区的大小

更多参考：mysql缓冲和缓存设置详解（https://www.jb51.net/article/100377.htm）

2.7 CDN内容分发网络的缓存

分布式网络

全国/全球多地部署很多Web服务器缓存节点
DNS动态解析，让客户端请求就近访问到Web服务器缓存节点

Web内容缓存

缓存源服务器的内容，有缓存时就不需要回源
可以支持目录规则、文件扩展名等设置缓存策略
可以手动刷新指定目录、文件的缓存数据

2.8 DNS域名解析

浏览器的DNS缓存，60s， chrome://net-internals/#dns
操作系统的DNS缓存， ipconfig /displaydns
本地HOSTS文件
C:WindowsSystem32driversetchosts
/etc/hosts
远程多级DNS服务器
路由器，运营商
根服务，顶级域名服务
二级域名服务，三级域名服务等

更多参考：浏览器的DNS缓存（https://www.cnblogs.com/tonykan/p/3500332.html）

2.9 Web浏览器

客户端浏览器缓存，减少对网站的访问。

640?wx_fmt=jpeg

Web内容缓存

客户端直接读取缓存，减少对Web服务器的请求
强制缓存 cache-control, expires (from memory cache, from disk cache)
协商缓存 etag, If-None-Match, last-modified, If-Modified-Since (304 not modify)

Cookie/LocalStorage/SessionStorage

数据存储在客户端，减少对服务端的依赖

640?wx_fmt=jpeg

更多参考：

彻底理解浏览器的缓存机制
（https://juejin.im/entry/5ad86c16f265da505a77dca4）
详说 Cookie, LocalStorage 与 SessionStorage
（https://jerryzou.com/posts/cookie-and-web-storage/）

2.10 总结，无处不在的缓存，硬件和软件

缓冲区buffer

避免频繁读写
一次性分配稍大的空间
一次性读写多一点内容

缓冲队列

通过队列，削峰填谷
不同设备、应用的读写速度不一样

多级缓存，分布式缓存

本地更快，减少远程数据依赖
缓存数据使用更快，减少数据读取和运算

问：在浏览器中输入一个网址 http://www.imooc.com/ ，接下来会发生什么？

3 系统中的缓存设计

先来看看2个典型的常见的软件系统。

3.1 社区bbs的缓存设计

数据模型

用户，板块，主题，帖子，回复

页面

首页，板块帖子列表页，帖子详情页，用户资料页

操作

浏览，发帖，回帖，置顶

缓存数据

全量永久缓存：用户(uid -> map)，板块(all -> json)，置顶帖(all -> json)
部分临时缓存：帖子列表页数据(多种排序, fid-displayorder -> tids), 主题浏览量(tid -> views)，帖子数据(tid -> map)，用户帖子列表页数据(uid -> json)
页面缓存：首页，帖子详情页

3.2 电商系统的缓存设计