LeetCode题练习与总结：删除重复的电子邮箱--196

最新推荐文章于 2024-09-13 16:27:15 发布

一直学习永不止步

最新推荐文章于 2024-09-13 16:27:15 发布

阅读量542

点赞数 12

分类专栏： LeetCode MySQL 简单文章标签：算法数据结构 LeetCode 数据库 MySQL 职场和发展

本文链接：https://blog.csdn.net/weixin_62860386/article/details/141041365

版权

LeetCode 同时被 3 个专栏收录

220 篇文章 0 订阅

订阅专栏

简单

57 篇文章 0 订阅

订阅专栏

MySQL

10 篇文章 0 订阅

订阅专栏

一、题目描述

SQL Schema > Pandas Schema >

表: Person

+-------------+---------+
| Column Name | Type    |
+-------------+---------+
| id          | int     |
| email       | varchar |
+-------------+---------+
id 是该表的主键列(具有唯一值的列)。
该表的每一行包含一封电子邮件。电子邮件将不包含大写字母。

编写解决方案删除所有重复的电子邮件，只保留一个具有最小 id 的唯一电子邮件。

（对于 SQL 用户，请注意你应该编写一个 DELETE 语句而不是 SELECT 语句。）

（对于 Pandas 用户，请注意你应该直接修改 Person 表。）

运行脚本后，显示的答案是 Person 表。驱动程序将首先编译并运行您的代码片段，然后再显示 Person 表。Person 表的最终顺序 无关紧要 。

返回结果格式如下示例所示。

示例 1:

输入: 
Person 表:
+----+------------------+
| id | email            |
+----+------------------+
| 1  | john@example.com |
| 2  | bob@example.com  |
| 3  | john@example.com |
+----+------------------+
输出: 
+----+------------------+
| id | email            |
+----+------------------+
| 1  | john@example.com |
| 2  | bob@example.com  |
+----+------------------+
解释: john@example.com重复两次。我们保留最小的Id = 1。

二、解题思路

首先，需要找到所有重复的电子邮件。为此，可以按照电子邮件分组，并计算每个组的行数。如果一个电子邮件的行数大于1，则表示它是重复的。
然后，需要删除除了具有最小 id 的那些重复电子邮件的所有行。为此，可以首先确定每个电子邮件组中的最小 id，然后删除那些不等于这些最小 id 的行。

三、具体代码

DELETE p1 FROM Person p1
JOIN Person p2 
ON p1.email = p2.email AND p1.id > p2.id;

解释：

在这个查询中，我们使用了自连接（将 Person 表连接到自身），并且对于每一对具有相同电子邮件地址的行，我们比较它们的 id 值。
p1.email = p2.email 确保我们比较的是相同的电子邮件地址。
p1.id > p2.id 确保我们只删除重复电子邮件中具有较大 id 的行，从而保留了每个电子邮件地址的最小 id 行。
DELETE p1 表示我们要删除的是 p1 中的行，即那些具有较大 id 的行。

四、时间复杂度和空间复杂度

时间复杂度和空间复杂度分析通常需要考虑算法和数据结构的特点，以及它们如何随着输入数据的大小变化。以下是针对提供的SQL删除语句的时间复杂度和空间复杂度分析：

1. 时间复杂度

假设 Person 表中有 n 行数据。
自连接操作将涉及到对每一行与其他所有行进行比较，这通常会导致 O(n^2) 的时间复杂度。因为对于每一行，数据库都需要遍历其他所有行来找到匹配的电子邮件地址。
实际上，数据库系统通常会使用索引来优化此类操作，所以实际的执行时间可能会低于 O(n^2)，尤其是当 email 和 id 字段上有适当的索引时。如果 email 字段有索引，查找匹配的电子邮件地址的时间复杂度可以降低到 O(log n)，并且由于每个电子邮件地址只会保留一个最小 id 的记录，所以删除操作的时间复杂度可以近似为 O(n)。

2. 空间复杂度

空间复杂度主要取决于数据库查询过程中使用的内存量。
自连接操作可能需要存储临时结果集，这个结果集的大小取决于有多少行数据满足自连接的条件。在最坏的情况下，如果所有行都是重复的，那么临时结果集可能接近于原始表的大小，因此空间复杂度为 O(n)。
如果数据库能够使用索引来优化查询，则可能不需要存储整个结果集，这会减少空间复杂度。但在没有索引的情况下，空间复杂度通常为 O(n)。

总结：

时间复杂度：在没有索引的情况下为 O(n^2)，在 email 和 id 字段有索引的情况下，可以近似为 O(n)。
空间复杂度：在没有索引的情况下为 O(n)，在 email 和 id 字段有索引的情况下，可能为 O(1) 或 O(log n)，具体取决于数据库如何实现索引和查询优化。

请注意，实际的时间复杂度和空间复杂度可能会因数据库管理系统（DBMS）的实现细节、存储引擎、索引类型、数据分布等因素而有所不同。上述分析提供了一个理论上的框架，实际情况可能会有所差异。

五、总结知识点

SQL DELETE 语法:
- DELETE 语句用于从数据库表中删除行。
多表连接:
- JOIN 子句用于将行从两个或多个表基于某个相关列合并起来。
自连接:
- 自连接是一种特殊的连接，它将表与其自身连接。在自连接中，表使用别名来区分不同的引用。
别名:
- 别名（p1 和 p2）用于给表或表的一个实例指定一个临时的名称，这在自连接中是必需的，因为它允许在同一个查询中对同一个表进行多次引用。
条件连接:
- ON 子句用于指定连接条件，这里是 p1.email = p2.email AND p1.id > p2.id，它定义了两个表之间的匹配规则。
比较操作符:
- = 用于比较两个值是否相等。
- > 用于比较左边的值是否大于右边的值。
逻辑操作符:
- AND 用于组合多个条件，只有当所有条件都为真时，整个条件才为真。
保留最小 ID 的记录:
- 代码通过比较 id 值来确保删除的是具有相同电子邮件地址中较大的 id 的记录，从而保留了具有最小 id 的记录。
性能考虑:
- 虽然代码中没有直接体现，但理解这个查询的性能考虑也很重要。例如，使用索引在 email 和 id 列上可以显著提高查询效率。
数据一致性和完整性:
- 代码示例确保了数据库中电子邮件地址的唯一性，这是数据完整性的一个方面。