大数据量重复校验

导入的功能,大家都用过,校验很多,比较多的应该算是重复性的校验。

 

比如导入的模板有1000条记录,那么导入的时候可能需要先和数据库里的记录进行比较,还需要和当前模板的其他记录进行比较。看过一个同事的校验逻辑,直接是双重循环,逻辑没有错,但是性能真不是很好

 

现在想到的方法是,利用临时表,具体逻辑:

 

1. 建立tmp表

2. 将当前模板的数据导入到tmp表

3. 在tmp表进行group by 唯一字段,并加上having count(*)>1 条件,这就可以判断当前文档记录的唯一性

4. 将tmp表和目标表进行inner join ,若存在结果集,就表示当前导入的模板记录有何数据库的目标表记录是重复的

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值