崩溃现象
3月3日晚,加班生产的同事们报告系统登录不上去,IT的同事检查监控,数据库CPU打爆、I/O报警,但是还没查出原因数据库自行恢复了。
3月4日一早,再次发生相同问题,直到中午也没有自行恢复,重启数据库解决。同时发现,数据库临时文件不停增长,直到把硬盘占满,数据库无法访问。重启后临时文件没了,之后又暴涨至崩溃,只能临时看着数据库硬盘,快满的时候重启一下数据库避免死机。
调查经过
崩溃原因查明,数据库临时文件把硬盘占满导致。那么又是什么原因导致临时文件突然暴涨呢。
PG临时文件如下:
total 550597824
-rw------- 1 postgres postgres 3178496 Mar 4 13:09 pgsql_tmp126504.0
-rw------- 1 postgres postgres 3137536 Mar 4 13:09 pgsql_tmp126504.1
-rw------- 1 postgres postgres 3194880 Mar 4 13:09 pgsql_tmp126504.10
-rw------- 1 postgres postgres 3129344 Mar 4 13:09 pgsql_tmp126504.100
-rw------- 1 postgr