pg分区表的实践-CSDN博客

本文链接：https://blog.csdn.net/weixin_44228698/article/details/124160492

本文探讨了在PostgreSQL中使用分区表的原因，背景是由于项目中遇到的事务回滚问题。分区表通过按天对历史数据进行分区，解决了数据删除和空间回收的问题，提高了查询性能。文章阐述了分区表的优势，包括简化历史数据删除、提升性能和避免事务回卷。适用场景是大数据项目，尤其是查询时通常涉及时间字段。创建分区表的步骤也进行了简单介绍。

摘要由CSDN通过智能技术生成

pg分区表的实践

1、背景：

由于目前项目中使用到了分区表，仔细看了一下和项目的契合度也很高，因此就此来深入了解一下分区表的应用。

以前项目刚开始的时候，用的只是按某个业务id分表，后来随着业务量的增大，出现了一次比较大的事故，就是pg数据库发生了事务回卷的问题。

由于这个表实际上是一个数据表，每天都会有大量的数据插入进来，同时我们需要对历史数据
进行备份和删除处理，在备份完成后，就需要使用delete对原有数据进行删除，但是由于pg数据库的特性，在做了删除操作后，数据库中的磁盘空间并不会立马被释放，pg有AUTOVACUUM会在不影响正常数据库任务的时候做自动清理工作，从而清理磁盘空间。

可能是数据库过于繁忙，新增删除的数据量较大，导致AUTOVACUUM的清理速度一直跟不上事务的
增长速度，所以这个事务id所处的元组不能被正常回收，就会导致发生这种事务回卷的状况。从而使数据库进入到了一个自我保护的状态，导致后续服务的数据库写入请求都失败了。

从这以后，我们就开始进行了对数据库表的改造工作。而pg分区表似乎可以完美的契合我们项目的使用情况，

首先，我们项目基本是个大数据项目，在数据写入之后，几乎不会有修改的的操作，当我们对历史数据进行分析的时候，我们总是通过where条件中带业务时间字段的方式查询数据进行分析的，产出的结果也是5分钟、小时、和天数据，少部分会有跨天查询的需求，因此我们就可以就使用这个业务时间的字段进行按天做分区表，大部分的情况直接查询子表就可以了，少部分需要跨天查询的就用主表来查。
主要就是不会有其他字段单独作为条件来查询这张表，因此分区表的效率是很高的。

2、优势所在：

而分区表的优势之一，就是方便历史数据的删除，直接DROP掉历史子表就行了。现在冷热库的数据
备份，直接将子表备份到冷库后，再DROP子表也是更加方便，DROP表与delete from table的方式完全不同，因为子表是分区存储的，DROP表的方式会直接释放掉这个子表所占用的空间，不需要pg自动AUTOVACUUM来回收空间，从而避免pg数据库发生事