mysql重复数据处理

财运通

于 2023-03-24 09:33:59 发布

阅读量130

点赞数

文章标签： mysql 数据库 sql

本文链接：https://blog.csdn.net/wzjin/article/details/129744204

版权

重复数据处理，有两种方法：
1、在数据库表中删除重复数据，得到的就是不重复的数据，这种适应于表数据量比较小的时候，表的id跨越比较大；
2、从表中取出不重复的记录到新表中，这种适应于表数据量大的情况，涉及到建表改表名的操作。
-- 方法一

SELECT	* -- 这里换成 DELETE 就是删除
FROM
	`product_detail` pd 
WHERE
	CONCAT(`product_id` , `product_type_id`) IN ( -- `product_id` , `product_type_id` 相同的认为是重复
	SELECT
		CONCAT(`product_id` , `product_type_id`) 
	FROM
		`product_detail` 
	GROUP BY
		CONCAT(`product_id` , `product_type_id`) 
	HAVING
		count( CONCAT(`product_id` , `product_type_id`)) > 1 
	) 
	AND pd.id NOT IN ( -- 这里和下面方法二的select不一样的
	SELECT
		min( id )  -- 这里换成max就是保留id最大的那条记录，也就是最新记录
	FROM
		`product_detail` 
	GROUP BY
		`product_id` , `product_type_id` 
HAVING
	count(`product_id` , `product_type_id`) > 1)

-- 方法二
-- 用的是重建表的方式，不采用删除重复数据的方式是因为表数据量非常大，删除太耗时
-- 将原表进行备份，然后重建

rename table `product_detail` to `product_detail_bak`;
CREATE TABLE `product_detail` (
  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键id',
  `product_id` int(11) NOT NULL COMMENT '产品id',
  `product_type_id` int(11) NOT NULL COMMENT '产品类型id',
  `product_serial_no` int(11) DEFAULT NULL COMMENT '产品顺序号',
  `state` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL DEFAULT '1' COMMENT '状态 1正常 2停用',
  `remark` varchar(500) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '备注',
  `status` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL DEFAULT '0' COMMENT '运维的状态字段 （0代表存在 -1代表删除）',
  `create_by` varchar(60) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT '创建人',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_by` varchar(60) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '更新人',
  `update_time` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci ROW_FORMAT=DYNAMIC COMMENT='产品明细表';

-- 用查询出来的要保留的数据插入新表，要把自增id去掉，还可以用insert--create table的方式

INSERT INTO `product_detail` -- 查询出所有不重复，这些就是应该保留的，这种适用于重新建立数据库表
SELECT	* 
FROM
	`product_detail_bak` pd 
WHERE
	CONCAT(`product_id` , `product_type_id`) IN (
	SELECT
		CONCAT(`product_id` , `product_type_id`) 
	FROM
		`product_detail_bak` 
	GROUP BY
		CONCAT(`product_id` , `product_type_id`) 
	HAVING
		count(CONCAT(`product_id` , `product_type_id`)) = 1 
	) 
	OR pd.id  IN (
	SELECT
		min( id )  -- 这里换成max就是保留id最大的那条记录，也就是最新记录
	FROM
		`product_detail_bak` 
	GROUP BY
		CONCAT（`product_id` , `product_type_id`)
HAVING
	count(`product_id` , `product_type_id`) > 1)

-- 下面是查询出来手工插入的，适用于数据量不大的情况，自增id的要把id字段去掉，这样才可以有连贯的id

INSERT INTO `product_detail` (`product_id`, `product_type_id`, `product_serial_no`, `state`, `remark`, `status`, `create_by`, `create_time`) VALUES (304, 51, NULL, '1', NULL, '0', '13172536459', '2023-01-10 09:01:28');
INSERT INTO `product_detail` (`product_id`, `product_type_id`, `product_serial_no`, `state`, `remark`, `status`, `create_by`, `create_time`) VALUES (323, 65, NULL, '1', NULL, '0', '13172536459', '2023-01-10 09:01:31');

财运通

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mysql重复数据处理

- 用查询出来的要保留的数据插入新表，要把自增id去掉，还可以用insert--create table的方式。1、在数据库表中删除重复数据，得到的就是不重复的数据，这种适应于表数据量比较小的时候，表的id跨越比较大；-- 下面是查询出来手工插入的，适用于数据量不大的情况，自增id的要把id字段去掉，这样才可以有连贯的id。2、从表中取出不重复的记录到新表中，这种适应于表数据量大的情况，涉及到建表改表名的操作。-- 用的是重建表的方式，不采用删除重复数据的方式是因为表数据量非常大，删除太耗时。
复制链接

扫一扫