问题描述:
需要对每一位用户导出对应logs表中的数据(万级数据量,一直在不断增长),需要分析logs中的数据,分拣出:上调记录、下降记录、流失记录,然后导出;
前期处理方式:
1.执行一次SQL,查询出满足条件的所有用户;
2.for循环每一位客户,执行3条SQL语句,分别取获取上调记录、下降记录、流失记录;
3.导出数据(SQL执行数为:1+n*3);
4.因数据分析量比较大,导出时总是出现,等待超时的错误,且数据无法导出成功,因此,为了使功能正常运行,就在前端做了限制,每次只导出60条数据;自然,这样处理不能满足要求;
后期处理方式:
后来经过师兄指点,添加字段logs_type区分上调记录(logs_type=1)、下降记录(logs_type=2)、流失记录(logs_type=3),并为logs_type添加索引:
ALTER TABLE logs ADD INDEX logs_type_index (cid, logs_type);
1.执行一次SQL,查询出满足条件的所有用户;
2.for循环每一位客户,执行1条SQL语句,根据客户ID去获取上调记录、下降记录、流失记录的集合,然后分别判断集合中的每一个值是上调还是下调还是流失;
实际上因为加了索引的缘故,第2步节省了很多执行时间,执行效率很高;
3.导出数据(SQL执行数为:1+n)
前后对比:
logs表数据60000条:
本地 | 用户数据条数 | 修改前导出耗时 | 修改后导出耗时 |
755条 | 150秒左右 | 1.5秒左右 | |
3307条 | 3.5秒左右 | ||
服务器 | 755条 | 2.8秒左右 | |
3307条 | 7.8秒左右 |