SQL高效去重语句

Sql去重语句 
海量数据(百万以上),其中有些全部字段都相同,有些部分字段相同,怎样高效去除重复?

如果要删除手机(mobilePhone),电话(officePhone),邮件(email)同时都相同的数据,以前一直使用这条语句进行去重:

1 delete from 表 where id not in 

2 (select max(id) from 表 group by mobilePhone,officePhone,email ) 

3 or 

4 delete from 表 where id not in 

5 (select min(id) from 表 group by mobilePhone,officePhone,email ) 

其中下面这条会稍快些。上面这条数据对于100万以内的数据效率还可以,重复数1/5的情况下几分钟到几十分钟不等,但是如果数据量达到300万以上,效率骤降,如果重复数据再多点的话,常常会几十小时跑不完,有时候会锁表跑一夜都跑不完。无奈只得重新寻找新的可行方法,今天终于有所收获:

1 //查询出唯一数据的ID,并把他们导入临时表tmp中 

2 select min(id) as mid into tmp from 表 group by mobilePhone,officePhone,email 

3   

4 //查询出去重后的数据并插入finally表中 

5 insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp) 

效率对比:用delete方法对500万数据去重(1/2重复)约4小时。4小时,很长的时间。

用临时表插入对500万数据去重(1/2重复)不到10分钟。

SQL语句去掉重复记录,获取重复记录
按照某几个字段名称查找表中存在这几个字段的重复数据并按照插入的时间先后进行删除,条件取决于order by 和row_num。

方法一按照多条件重复处理:

1 delete tmp from( 

2 select row_num = row_number() over(partition by 字段,字段 order by 时间 desc) 

3     from 表 where 时间> getdate()-1 

4 ) tmp 

5 where row_num > 1 

方法二按照单一条件进行去重:

1 delete from 表 where 主键ID not in( 

2 select max(主键ID) from 表 group by 需要去重的字段 having count(需要去重的字段)>=1 

3 ) 

注意:为提高效率如上两个方法都可以使用临时表, not in 中的表可以先提取临时表#tmp,

然后采用not exists来执行,为避免数量过大,可批量用Top控制删除量

1 delete top(2) from 表 

2         where  not exists (select 主键ID 

3   from #tmp where #tmp.主键ID=表.主键ID) 
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在 SQL Server 中,您可以使用 SELECT DISTINCT 语句来进行去重。例如,如果您想要从表中选择不重复的城市名称,可以使用以下语句: ``` SELECT DISTINCT city FROM table_name; ``` 其中,`table_name` 是您要查询的表名,`city` 是您要选择不重复值的列名。另外,如果您想要删除表中的重复记录,可以使用以下语句: ``` DELETE FROM table_name WHERE column_name NOT IN ( SELECT MIN(column_name) FROM table_name GROUP BY duplicate_column_name ); ``` 其中,`table_name` 是您要删除记录的表名,`column_name` 是表中的列名,`duplicate_column_name` 是您要去除重复记录的列名。这个语句将会删除表中除了每组重复记录中最小的那条记录之外的所有记录。 ### 回答2: 在SQL Server中实现去重可以使用多种方法,下面我们介绍几个常用的方法: 1. 使用DISTINCT关键字:可以在SELECT语句中使用DISTINCT关键字来去除重复的行。例如,可以使用以下语句来检索表中的所有不重复的数据: ``` SELECT DISTINCT 列名 FROM 表名; ``` 2. 使用GROUP BY子句:可以使用GROUP BY子句根据特定的列对数据进行分组,并对每个组进行去重。例如,可以使用以下语句来检索表中每个员工的唯一部门: ``` SELECT 列名 FROM 表名 GROUP BY 列名; ``` 3. 使用ROW_NUMBER函数:可以使用ROW_NUMBER函数给每行数据分配一个唯一的行号,并根据行号进行筛选。例如,可以使用以下语句来检索表中的数据,保留每个员工的第一条记录: ``` SELECT * FROM ( SELECT 列名, ROW_NUMBER() OVER (PARTITION BY 列名 ORDER BY 排序列名) AS 行号 FROM 表名 ) AS 子查询 WHERE 行号 = 1; ``` 4. 使用EXCEPT运算符:可以使用EXCEPT运算符比较两个查询的结果集,获取在第一个结果集中出现但不在第二个结果集中出现的记录。例如,可以使用以下语句来检索表1中独有的记录: ``` SELECT 列名 FROM 表1 EXCEPT SELECT 列名 FROM 表2; ``` 以上是SQL Server中常用的几种去重方法,根据具体的需求和数据结构选择合适的方法可以高效地实现去重操作。 ### 回答3: 在SQL Server中进行去重有多种方法。 1. 使用DISTINCT关键字来进行去重。例如,可以使用SELECT DISTINCT列名 FROM 表名语句查询出指定列的不重复值。 2. 使用GROUP BY子句进行去重。通过GROUP BY子句将相同的列值分组,然后使用聚合函数如COUNT()、SUM()等来对分组结果进行计算。 3. 使用子查询进行去重。可以编写一个子查询,从原始表中选择不重复的记录,并将其作为一个临时表或视图。 4. 使用ROW_NUMBER()函数进行去重。ROW_NUMBER()函数可以为查询结果中的每一行分配一个唯一的、连续的数值,通过对ROW_NUMBER()结果进行筛选,可以实现去重的效果。 5. 使用CTE(Common Table Expression)进行去重。CTE是指在查询中创建临时的命名结果集,使用WITH关键字定义CTE,并在主查询中使用它。 无论使用哪种方法进行去重,都可以根据具体的需求选择最合适的方法。在处理大量数据时,需要注意性能问题,可以考虑使用索引、临时表等技术来优化查询速度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值