力扣：182. 查找重复的电子邮箱（Python3）

恽劼恒

已于 2023-11-27 15:09:37 修改

阅读量314

点赞数 4

分类专栏： LeetCode 文章标签： leetcode 算法 python pandas

于 2023-11-27 15:06:00 首次发布

本文链接：https://blog.csdn.net/yunjieheng/article/details/134645526

版权

LeetCode 专栏收录该内容

163 篇文章 1 订阅

订阅专栏

题目：

表: Person
+-------------+---------+
| Column Name | Type    |
+-------------+---------+
| id          | int     |
| email       | varchar |
+-------------+---------+
id 是该表的主键（具有唯一值的列）。
此表的每一行都包含一封电子邮件。电子邮件不包含大写字母。
编写解决方案来报告所有重复的电子邮件。请注意，可以保证电子邮件字段不为 NULL。

以 任意顺序 返回结果表。

结果格式如下例。

来源：力扣（LeetCode）
链接：力扣（LeetCode）官网 - 全球极客挚爱的技术成长平台

示例：

示例 1：

输入：

Person 表:
+----+---------+
| id | email   |
+----+---------+
| 1  | a@b.com |
| 2  | c@d.com |
| 3  | a@b.com |
+----+---------+

输出：

+---------+
| Email   |
+---------+
| a@b.com |
+---------+

解释：a@b.com 出现了两次。

解法：

现在person表中加入1列，记录email是否重复，接着把重复的留下，然后去重。

知识点：

1.DataFrame.duplicated(subset=None, keep=‘first’)：查找和处理数据中的重复项，返回布尔值的Series。subset：默认为None，需要标记重复的标签或标签序列；keep：默认为‘first’，如何标记重复标签，first：将除第一次出现以外的重复数据标记为True；last：将除最后一次出现以外的重复数据标记为True；False：将所有重复的项都标记为True（不管是不是第一次出现）。比如：
data = [[1, 'a@b.com'], [2, 'c@d.com'], [3, 'a@b.com']]
person = pd.DataFrame(data, columns=['id', 'email']).astype({'id': 'Int64', 'email': 'object'})
person['duplicated'] = person.duplicated(subset='email', keep=False)
返回如下：

代码：

import pandas as pd

def duplicate_emails(person: pd.DataFrame) -> pd.DataFrame:
    person['duplicated'] = person.duplicated(subset='email', keep=False)
    email = person[person['duplicated'] == True].drop_duplicates(subset='email')
    del email['id']
    del email['duplicated']
    return email