Oracle数据库中如何删除重复数据。
第一种情况:部分字段重复数据的删除
先查询出那些数据是重复的:
select
字段1
,字段2
,count(*)
from 表名
group by
字段1
,字段2
having count(*) > 1;
将上面的大于>号改为等于=号就可以查询出没有重复的数据了。
删除这些重复的数据,可以使用下面语句进行删除
delete from 表名 a where 字段1,字段2
in
(select 字段1,字段2,count(*)
from 表名
group by 字段1,字段2
having count(*) > 1)
备注:该查询语句非常简单,就是将查询到的数据删除掉。不过这种删除执行的效率非常低,对于大数据量来说,会对数据库造成大的压力,不建议使用。
可以先将查询到的重复的数据插入到一个临时表中,然后再进行删除,
这样,执行删除的时候就不用再进行一次查询了。步骤如下:
1、建立临时表,并将查询到的数据插入临时表。
CREATE TABLE 临时表test_temp AS
(select 字段1,字段2,count(*)
from 表名
group by 字段1,字段2
having count(*) > 1);
2、进行删除操作
delete from 表名 a where 字段1,字段2
in
(select 字段1,字段2 from 临时表test_table);
3、这种先建临时表再进行删除的操作要比直接用一条语句进行删除要高效得多。
但执行这语句,相当于把所有重复的全都删除吗?若想保留重复数据中最新的一条记录!用如下方法。
在Oracle中,有个隐藏了自动rowid,里面给每条记录一个唯一的rowid,
想保留最新的一条记录, 就可以利用这个字段,
保留重复数据中rowid最大的一条记录就可以了。
下面是查询重复数据的一个例子:
select a.rowid,a.* from 表名 a
where a.rowid !=
(
select max(b.rowid)
from 表名 b
where
a.字段1 = b.字段1
and a.字段2 = b.字段2
);
解析:上面括号中的子查询语句是查询出重复数据中rowid最大的一条记录。
而外面就是查询出除了rowid最大之外的其他重复的数据了。
所以我们要删除重复数据,只保留最新的一条数据,就可以这样写了:
delete from 表名 a where a.rowid !=
(
select max(b.rowid)
from 表名 b
where a.字段1 = b.字段1
and a.字段2 = b.字段2
);
备注:这种语句的执行效率是很低的,可以考虑建立临时表,将需要判断重复的字段、rowid插入临时表中,
然后删除的时候在进行比较。步骤如下:
1、建立临时表test_table,记录重复的数据
create table 临时表test_table as
select a.字段1,a.字段2,MAX(a.ROWID) dataid
from 正式表 a
GROUP BY a.字段1,a.字段2;
2、删除重复数据
delete from 表名 a
where a.rowid !=
(
select b.dataid
from 临时表 b
where a.字段1 = b.字段1
and a.字段2 = b.字段2
);
3、提交
commit;
第二种情况:对于完全重复数据的的删除
对于表中两行记录完全一样的情况
可以将查询的记录放到临时表中,然后再将原来的表记录删除,最后将临时表的数据导回原来的表中。如下:
1、查询去重数据放到临时表
CREATE TABLE 临时表 AS (select distinct * from 表名);
2、delete重复的正式表
delete from 正式表;
3、去重后的临时表数据插入新的正式表
insert into 正式表
(select * from 临时表);
4、drop临时表
drop table 临时表;