数据 清洗

1、处理缺失值

欢迎来到Kaggle学习的数据清理课程!

数据清理是数据科学的一个关键部分,但它可能会非常令人沮丧。为什么你的一些文本字段是乱码?您应该如何处理这些丢失的值?为什么你的日期格式不正确?如何快速清理不一致的数据输入?在本课程中,您将了解为什么会遇到这些问题,更重要的是,如何解决这些问题!

在本课程中,您将学习如何解决一些最常见的数据清理问题,以便能够更快地实际分析数据。您将使用真实、混乱的数据完成五个实际操作练习,并回答一些最常见的数据清理问题。

在本笔记本中,我们将了解如何处理缺少的值。

先看一下数据

我们需要做的第一件事是加载我们将要使用的库和数据集。

为了演示,我们将使用美式足球比赛中发生的事件的数据集。在下面的练习中,你将把你的新技能应用到旧金山颁发的建筑许可数据集中。

# modules we'll use
import pandas as pd
import numpy as np

# read in all our data
nfl_data = pd.read_csv("../input/nflplaybyplay2009to2016/NFL Play by Play 2009-2017 (v4).csv")

# set seed for reproducibility
np.random.seed(0) 

当您得到一个新的数据集时,首先要做的是查看其中的一些数据集。这可以让您看到所有的数据都被正确读入,并了解数据的情况。在本例中,让我们看看是否有任何缺少的值,这些值将用NaN或None表示。

我们有多少缺失的数据点?

好的,现在我们知道我们确实缺少一些值。让我们看看每列有多少。

# 获取每列缺少的数据点数
missing_values_count = nfl_data.isnull().sum()

# look at the # of missing points in the first ten columns
missing_values_count[0:10]

好像很多!查看数据集中缺失值的百分比可能会有所帮助,以便更好地了解此问题的规模:

# how many total missing values do we have?
total_cells = np.product(nfl_data.shape)
total_missing = missing_values_count.sum()

# percent of data that is missing
percent_missing = (total_missing/total_cells) * 100
print(percent_missing)

哇,这个数据集中几乎四分之一的单元格都是空的!在下一步中,我们将更仔细地查看一些缺少值的列,并尝试找出它们可能发生的情况。

找出数据丢失的原因

在这一点上,我们进入了数据科学的一部分,我喜欢称之为“数据直觉”,我的意思是“真正地审视你的数据,并试图找出它为什么是这样,以及它将如何影响你的分析”。这可能是数据科学中令人沮丧的一部分,特别是如果你对这个领域比较新,没有很多经验的话。为了处理丢失的值,您需要使用直觉来找出丢失值的原因。你可以问自己的一个最重要的问题是:

这个值丢失是因为它没有被记录还是因为它不存在?

如果某个值因为不存在而丢失(比如没有孩子的人的最大孩子的身高),那么尝试猜测它可能是什么就没有意义了。这些值您可能确实希望保持为NaN。另一方面,如果某个值由于未记录而丢失,则可以尝试根据该列和该行中的其他值猜测该值可能是什么。这就是所谓的插补,接下来我们将学习如何做!:)

让我们看一个例子。查看nfl\ U数据帧中缺失值的数量,我注意到“TimesSec”列中有很多缺失值:

# 请看前十列中缺失的点
missing_values_count[0:10]

通过查看文档,我可以看到这个专栏有关于游戏中剩余秒数的信息。这意味着这些值可能丢失是因为它们没有被记录,而不是因为它们不存在。所以,我们应该试着猜测他们应该是什么样的人,而不是把他们当作NA。

另一方面,还有其他一些字段,比如“popultedteam”,也有很多缺少的字段。在这种情况下,虽然,该领域是失踪的,因为如果没有处罚,那么这是没有意义的,说哪支球队被处罚。对于这个列,将其保留为空或者添加第三个值(如“neither”)并使用它来替换NA的值更有意义。

提示:这是一个阅读数据集文档的好地方,如果你还没有!如果您使用的是从其他人那里获得的数据集,您也可以尝试联系他们以获取更多信息。

如果您正在进行非常仔细的数据分析,那么您可以在这一点上逐个查看每一列,以找出填充这些缺失值的最佳策略。在本笔记本的其余部分,我们将介绍一些“快速而肮脏”的技术,这些技术可以帮助您处理丢失的值,但也可能最终删除一些有用的信息或给数据添加一些噪声。

删除缺少的值

如果您很匆忙或者没有理由找出丢失值的原因,那么您可以选择删除包含丢失值的任何行或列(注意:对于重要的项目,我一般不推荐这种方法!花点时间浏览数据并逐个查看所有缺少值的列通常是值得的,这样才能真正了解数据集。)

如果您确定要删除缺少值的行,pandas确实有一个方便的函数dropna()来帮助您完成此操作。让我们在我们的NFL数据集上试试吧!

# 删除包含缺少值的所有行
nfl_data.dropna()

哦,天哪,看起来我们的数据都被删除了!😱 这是因为数据集中的每一行都至少缺少一个值。我们可能会更幸运地删除所有至少缺少一个值的列。

# 删除至少缺少一个值的所有列
columns_with_na_dropped = nfl_data.dropna(axis=1)
columns_with_na_dropped.head()
# 我们损失了多少数据?
print("Columns in original dataset: %d \n" % nfl_data.shape[1])
print("Columns with na's dropped: %d" % columns_with_na_dropped.shape[1])

我们丢失了很多数据,但现在我们已经成功地从数据中删除了所有的NaN。

自动填写缺失值

另一种选择是尝试填充缺少的值。接下来,我将得到NFL数据的一小部分,这样它就可以很好地打印出来。

# 获取NFL数据集的一小部分
subset_nfl_data = nfl_data.loc[:, 'EPA':'Season'].head()
subset_nfl_data

我们可以使用Panda的fillna()函数来填充数据帧中缺少的值。我们有一个选择,就是指定要用什么来替换NaN值。在这里,我想用0替换所有的NaN值。

# 将所有NA替换为0
subset_nfl_data.fillna(0)

我还可以更精明一点,用同一列中紧跟其后的值替换缺少的值(对于观测值具有某种逻辑顺序的数据集来说,这很有意义。)

# 替换同一列中紧跟其后的所有NA值,
# 然后用0替换所有剩余的na
subset_nfl_data.fillna(method='bfill', axis=0).fillna(0)

2、缩放和标准化

在本笔记本中,我们将研究如何缩放和规范化数据(以及两者之间的区别!)。

让我们开始吧!

建立我们的环境

我们需要做的第一件事是加载我们将要使用的库。

# 我们将使用的模块
import pandas as pd
import numpy as np

# 关于Box-Cox变换
from scipy import stats

# 用于最小最大缩放
from mlxtend.preprocessing import minmax_scaling

# 绘图模块
import seaborn as sns
import matplotlib.pyplot as plt

# 为再现性设定种子
np.random.seed(0)

缩放与标准化:有什么区别?

在缩放和规范化之间容易混淆的原因之一是,这些术语有时可以互换使用,更令人困惑的是,它们非常相似!在这两种情况下,您都在转换数值变量的值,以便转换后的数据点具有特定的有用属性。区别在于:

在缩放中,您正在更改数据的范围,而

在标准化中,您正在更改数据分布的形状。

让我们更深入地讨论一下这些选项中的每一个。

缩放比例

这意味着您正在转换数据,使其符合特定的比例,如0-100或0-1。当您使用基于数据点距离度量的方法时,如支持向量机(SVM)或k近邻(KNN),您希望缩放数据。使用这些算法,任何数字特征中“1”的变化都具有相同的重要性。

例如,您可能正在查看某些产品的日元和美元价格。一美元价值约100 Yen,但如果你不标价,像SVM或KNN的方法会考虑1日元的差价,和1美元的差价一样重要。这显然不符合我们对世界的直觉。使用“货币”,您可以在不同货币之间进行转换。但是如果你看的是身高和体重呢?现在还不完全清楚多少磅应该等于一英寸(或者多少公斤应该等于一米)。

通过缩放变量,您可以帮助在平等的基础上比较不同的变量。为了帮助巩固缩放效果,让我们看一个虚构的示例(别担心,我们将在下面的练习中使用真实数据!)

# 从指数分布中随机抽取1000个数据点
original_data = np.random.exponential(size=1000)

# 最大混合比例在0和1之间缩放数据
scaled_data = minmax_scaling(original_data, columns=[0])

# 将两者绘制在一起进行比较
fig, ax = plt.subplots(1,2)
sns.distplot(original_data, ax=ax[0])
ax[0].set_title("Original Data")
sns.distplot(scaled_data, ax=ax[1])
ax[1].set_title("Scaled data")

请注意,数据的形状没有改变,但它现在的范围不是从0到8ish,而是从0到1。

规范化

缩放只会更改数据的范围。规范化是一种更激进的转变。标准化的要点是改变你的观察值,使它们可以被描述为正态分布。

正态分布:也称为“钟形曲线”,这是一种特定的统计分布,其中大致相等的观测值位于平均值之上和之下,平均值和中位数相同,并且有更多的观测值更接近平均值。正态分布也称为高斯分布。

通常,如果要使用假设数据是正态分布的机器学习或统计技术,则需要对数据进行规范化。其中一些例子包括线性判别分析(LDA)和高斯朴素贝叶斯(专业提示:任何名称中带有“Gaussian”的方法都可能假定为正态。)

这里我们用来规范化的方法叫做Box-Cox变换。让我们快速了解一些数据的正常化:

# 使用boxcox规范化指数数据
normalized_data = stats.boxcox(original_data)

# 将两者绘制在一起进行比较
fig, ax=plt.subplots(1,2)
sns.distplot(original_data, ax=ax[0])
ax[0].set_title("Original Data")
sns.distplot(normalized_data[0], ax=ax[1])
ax[1].set_title("Normalized data")

请注意,数据的形状已更改。在正常化之前,它几乎是L形的。但在标准化后,它看起来更像钟形的轮廓(因此称为“钟形曲线”)。

3、解析日期

在本笔记本中,我们将讨论日期。

让我们开始吧!

建立我们的环境

我们需要做的第一件事是加载我们将要使用的库和数据集。我们将使用一个包含2007年至2016年间发生的滑坡信息的数据集。在下面的练习中,您将把新技能应用于全球地震数据集。

# 我们将使用的模块
import pandas as pd
import numpy as np
import seaborn as sns
import datetime

# 读入我们的数据
landslides = pd.read_csv("../input/landslide-events/catalog.csv")

# 为再现性设定种子
np.random.seed(0)

现在我们准备看一些日期!

检查日期列的数据类型

我们首先看一下数据的前五行。

landslides.head()

我们将使用数据框中的“日期”列。让我们确保它看起来确实包含日期。

# 打印日期列的前几行
print(landslides['date'].head())

是的,那些是日期!但仅仅因为我,一个人,能分辨出这些是日期并不意味着Python知道它们是日期。注意,在head()输出的底部,您可以看到该列的数据类型是“object”。

Pandas使用“object”数据类型来存储各种类型的数据类型,但大多数情况下,当您看到数据类型为“object”的列时,其中会包含字符串。

如果查看此处的pandas数据类型文档,您会注意到还有一个特定的datetime64数据类型。因为我们列的数据类型是object而不是datetime64,所以可以看出Python不知道该列包含日期。

我们也可以只查看列的数据类型,而不打印前几行:

# 检查日期列的数据类型
landslides['date'].dtype

您可能需要检查numpy文档,以便将字母代码与对象的数据类型相匹配。”“O”是“object”的代码,所以我们可以看到这两种方法提供了相同的信息。

将日期列转换为日期时间

现在我们知道我们的date列没有被识别为日期,是时候将其转换为日期了。这被称为“解析日期”,因为我们接收字符串并识别其组成部分。

我们可以通过一个名为“strftime指令”的指南了解日期的格式,您可以在这个链接上找到更多信息。基本的想法是,你需要指出日期的哪些部分在哪里,它们之间有什么标点。一个日期有很多可能的部分,但最常见的是%d表示日、%m表示月、%y表示两位数年、%y表示四位数年。

一些例子:

2007年1月17日的格式为“%m/%d/%y”

17-1-2007的格式为“%d-%m-%Y”

回顾滑坡数据集中“日期”列的开头,我们可以看到它的格式是“月/日/两位数年”,因此我们可以使用与第一个示例相同的语法来解析日期:

# 创建一个新列date_parsed,其中包含解析的日期
landslides['date_parsed'] = pd.to_datetime(landslides['date'], format="%m/%d/%y")

现在,当我检查新列的前几行时,我可以看到数据类型是datetime64。我还可以看到,我的日期已稍微重新排列,以便适合默认的order datetime对象(年-月-日)。

# 打印前几行
landslides['date_parsed'].head()

既然我们的日期被正确解析,我们就可以用有用的方式与之交互。

如果我遇到多个日期格式的错误怎么办?当我们在这里指定日期格式时,当一列中有多个日期格式时,有时会遇到错误。如果发生这种情况,您必须尝试推断正确的日期格式。您可以这样做:

landslides['date_parsed'] = pd.to_datetime(landslides['Date'], infer_datetime_format=True)

为什么不总是使用推断日期时间格式=真?有两大理由不总是让熊猫猜时间格式。首先,pandas并不总是能够找出正确的日期格式,特别是如果有人在数据输入方面有创意的话。第二,它比指定日期的确切格式慢得多。

选择月份的哪一天

现在我们有了一列解析的日期,我们可以提取滑坡发生的月份的日期之类的信息。

# 从date_parsed列获取月份的日期
day_of_month_landslides = landslides['date_parsed'].dt.day
day_of_month_landslides.head()

如果我们试图从原始的“date”列中获取相同的信息,我们将得到一个错误:AttributeError:只能使用带有datetimelike值的.dt访问器。这是因为dt.day不知道如何处理dtype为“object”的列。即使我们的数据框中有日期,我们也必须先解析它们,然后才能以有用的方式与它们交互。

绘制月份的日期以检查日期

解析日期的最大危险之一是将月份和日期混淆。to_datetime()函数确实有非常有用的错误消息,但仔细检查我们提取的月份天数是否有意义并没有什么坏处。

为此,让我们绘制一个月中天数的柱状图。我们预计它的值在1到31之间,因为没有理由假设滑坡在一个月的某些日子比其他日子更常见,所以分布相对均匀(因为不是所有月份都有31天。)让我们看看情况是否如此:

# 移除na's
day_of_month_landslides = day_of_month_landslides.dropna()

# 画一个月的哪一天
sns.distplot(day_of_month_landslides, kde=False, bins=31)

是的,看起来我们确实正确地解析了日期&这个图表对我来说很有意义。

4、字符编码

在本笔记本中,我们将使用不同的字符编码。

让我们开始吧!

建立我们的环境

我们需要做的第一件事是加载我们将要使用的库。但不是我们的数据集:我们稍后再讨论!

# 我们将使用的模块
import pandas as pd
import numpy as np

# 字符编码模块
import chardet

# 为再现性设定种子
np.random.seed(0)

什么是编码?

字符编码是一组特定的规则,用于将原始二进制字节字符串(看起来像:011010000011101001)映射到构成人类可读文本的字符(像“hi”)。有许多不同的编码,如果你试图用不同的编码来阅读文本,你最终会得到一个被称为“mojibake”(像mo gee bah kay这样说)的混乱文本。以下是mojibake的一个例子:

您也可能以“未知”字符结束。当用于读取字节字符串的编码中的特定字节和字符之间没有映射时,会打印出以下内容:

字符编码不匹配在今天已经不像以前那么普遍了,但这肯定仍然是一个问题。有很多不同的字符编码,但您需要知道的主要编码是UTF-8。

UTF-8是标准的文本编码。所有Python代码都是UTF-8格式,理想情况下,您的所有数据也应该是UTF-8格式。当事情不在UTF-8中时,你就会遇到麻烦。

在Python2中处理编码非常困难,但谢天谢地,在Python3中它要简单得多(Kaggle笔记本电脑仅使用Python 3。)在Python 3中处理文本时,您会遇到两种主要的数据类型。一种是字符串,默认情况下文本就是字符串。

# 从字符串开始
before = "This is the euro symbol: €"

# 查看它是什么数据类型
type(before)
str

另一个数据是bytes数据类型,它是一个整数序列。通过指定字符串的编码方式,可以将字符串转换为字节:

# 将其编码为不同的编码,替换引起错误的字符
after = before.encode("utf-8", errors="replace")

# 检查类型
type(after)
bytes

如果你看一个bytes对象,你会发现它前面有一个b,后面可能有一些文本。这是因为字节被打印出来,就好像它们是ASCII编码的字符一样(ASCII是一种较旧的字符编码,它实际上不适用于除英语以外的任何语言。)在这里,您可以看到,我们的欧元符号已被一些mojibake所取代,当它像ASCII字符串一样打印时,它看起来像“\xe2\x82\xac”。

# 看看字节是什么样子的
after
b'This is the euro symbol: \xe2\x82\xac'

当我们用正确的编码将字节转换回字符串时,我们可以看到我们的文本都是正确的,这很好!)

# 将其转换回utf-8
print(after.decode("utf-8"))
This is the euro symbol: €

但是,当我们尝试使用不同的编码将字节映射到字符串时,会出现错误。这是因为我们试图使用的编码不知道如何处理我们试图传递的字节。您需要告诉Python字节字符串实际应该使用的编码。

你可以把不同的编码看作是录制音乐的不同方式。您可以在CD、盒式磁带或8音轨上录制相同的音乐。虽然音乐听起来可能或多或少相同,但您需要使用正确的设备播放每种录制格式的音乐。正确的解码器类似于盒式磁带播放机或CD播放机。如果你试着用CD播放机播放一盘磁带,它就是不起作用。

#尝试用ascii编码解码我们的字节
print(after.decode("ascii"))

如果我们试图使用错误的编码从字符串映射到字节,我们也会遇到麻烦。正如我前面所说的,在Python3中,字符串默认为UTF-8,因此如果我们试图将它们像在另一种编码中一样对待,就会产生问题。

例如,如果我们尝试使用encode()将字符串转换为ASCII字节,我们可以要求字节与文本为ASCII时的字节相同。但是,由于文本不是ASCII格式,因此会有一些字符无法处理。我们可以自动替换ASCII无法处理的字符。然而,如果我们这样做,任何非ASCII字符将被替换为未知字符。然后,当我们将字节转换回字符串时,该字符将替换为未知字符。这件事的危险之处在于,没有办法判断它应该是哪个角色。这意味着我们可能刚刚使我们的数据无法使用!

# 从字符串开始
before = "This is the euro symbol: €"

# 将其编码为不同的编码,替换引起错误的字符
after = before.encode("ascii", errors = "replace")

# 将其转换回utf-8
print(after.decode("ascii"))

# 我们丢失了原始的底层字节字符串!一直都是这样
# 替换为未知字符的基础字节字符串:(
This is the euro symbol: ?

这很糟糕,我们希望避免这样做!最好尽快将所有文本转换为UTF-8,并保持这种编码方式。将非UTF-8输入转换为UTF-8的最佳时间是在读入文件时,我们将在下面讨论。

读取有编码问题的文件

您将遇到的大多数文件可能都是用UTF-8编码的。这是Python在默认情况下所期望的,所以大多数情况下您不会遇到问题。但是,有时会出现如下错误:

# 尝试读取非UTF-8格式的文件
kickstarter_2016 = pd.read_csv("../input/kickstarter-projects/ks-projects-201612.csv")

请注意,我们得到的UnicodeDecodeError与我们尝试将UTF-8字节解码为ASCII时得到的相同!这告诉我们这个文件实际上不是UTF-8,但我们不知道它实际上是什么编码。解决这个问题的一种方法是尝试并测试一系列不同的字符编码,看看它们是否有效。不过,更好的方法是使用chardet模块尝试并自动猜测正确的编码是什么。这并不是100%保证是正确的,但它通常比仅仅猜测要快。

我只看一下这个文件的前一万字节。这通常足以很好地猜测编码是什么,并且比查看整个文件要快得多(特别是对于大文件,这可能非常慢。)只查看文件的第一部分的另一个原因是,通过查看错误消息,我们可以看到第一个问题是第11个字符。因此,我们可能只需要查看文件的第一部分,就可以了解发生了什么。

# 查看前一万字节以猜测字符编码
with open("../input/kickstarter-projects/ks-projects-201801.csv", 'rb') as rawdata:
    result = chardet.detect(rawdata.read(10000))

# 检查字符编码可能是什么
print(result)
{'encoding': 'Windows-1252', 'confidence': 0.73, 'language': ''}

因此,chardet有73%的信心认为正确的编码是“Windows-1252”。让我们看看这是否正确:

# 使用chardet检测到的编码读入文件
kickstarter_2016 = pd.read_csv("../input/kickstarter-projects/ks-projects-201612.csv", encoding='Windows-1252')

# 看前几行
kickstarter_2016.head()

是的,看起来chardet是对的!文件读入时没有问题(尽管我们确实收到了关于数据类型的警告),当我们查看前几行时,它看起来很好。

如果编码chardet猜测不正确怎么办?由于chardet基本上只是一个花哨的猜测者,有时它会猜测错误的编码。您可以尝试的一件事是查看文件的多多少少,看看是否得到不同的结果,然后再试一次。

使用UTF-8编码保存文件

最后,一旦您经历了将文件转换为UTF-8的所有麻烦,您可能会希望保持这种方式。最简单的方法是使用UTF-8编码保存文件。好消息是,由于UTF-8是Python中的标准编码,因此在保存文件时,默认情况下会将其保存为UTF-8:

# 保存我们的文件(默认情况下将保存为UTF-8!)
kickstarter_2016.to_csv("ks-projects-201801-utf8.csv")

5、不一致的数据输入

在本笔记本中,我们将学习如何清理不一致的文本条目。

让我们开始吧!

建立我们的环境

我们需要做的第一件事是加载我们将要使用的库和数据集。

# 我们将使用的模块
import pandas as pd
import numpy as np

# 有用模块
import fuzzywuzzy
from fuzzywuzzy import process
import chardet

# 读入我们所有的数据
professors = pd.read_csv("../input/pakistan-intellectual-capital/pakistan_intellectual_capital.csv")

# 为再现性设定种子
np.random.seed(0)

做一些初步的文本预处理

首先,我们将快速查看数据的前几行。

professors.head()

假设我们有兴趣清理“Country”列,以确保其中没有数据输入不一致。当然,我们可以手工检查每一行,并在发现不一致时手工更正。不过,有一种更有效的方法可以做到这一点!

# 获取“countries”列中的所有唯一值
countries = professors['Country'].unique()

# 按字母顺序排序,然后仔细查看
countries.sort()
countries

只要看看这一点,我就可以看到由于数据输入不一致而产生的一些问题:“德国”和“德国”,或者“新西兰”和“新西兰”。

我要做的第一件事是将所有内容都简化为小写(如果愿意,我可以在末尾将其改回),并删除单元格开头和结尾的所有空白。大写和尾随空格的不一致在文本数据中非常常见,通过这样做,您可以修复80%的文本数据输入不一致。

# 转换成小写
professors['Country'] = professors['Country'].str.lower()
# 删除尾随空格
professors['Country'] = professors['Country'].str.strip()

接下来,我们将处理更困难的不一致性。

使用模糊匹配纠正不一致的数据输入

好的,让我们再看一看“国家”栏,看看我们是否还需要进行更多的数据清理。

# 获取“countries”列中的所有唯一值
countries = professors['Country'].unique()

# 按字母顺序排序,然后仔细查看
countries.sort()
countries

看起来确实存在另一个不一致之处:“southkorea”和“south korea”应该是一样的。

我们将使用fuzzyfuzzy包来帮助识别哪些字符串彼此最接近。这个数据集足够小,我们可能可以手动更正错误,但这种方法不能很好地扩展(你想手工改正一千个错误吗?一万怎么样?尽早实现自动化通常是个好主意。另外,这很有趣!)

模糊匹配:自动查找与目标字符串非常相似的文本字符串的过程。一般来说,一个字符串被认为与另一个字符串“更接近”,即在将一个字符串转换为另一个字符串时需要更改的字符数越少。因此,“apple”和“snapple”是两个彼此不同的变化(添加“s”和“n”),而“in”和“on”则是一个变化(用“o”替换“i”)。你不可能总是100%依赖模糊匹配,但它通常会为你节省至少一点时间。

fuzzyfuzzy返回给定两个字符串的比率。比率越接近100,两个字符串之间的编辑距离越小。在这里,我们将从我们的城市列表中获得与“迪可汗”距离最近的十个字符串。

# 获取最接近的前10个匹配项"south korea"
matches = fuzzywuzzy.process.extract("south korea", countries, limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

# 看看他们
matches

我们可以看到,城市中有两个项目与“south korea”非常接近:“south korea”和“southkorea国”。让我们将“国家”列中比率>47的所有行替换为“韩国”。

为此,我将编写一个函数(编写一个通用函数是一个好主意,如果您认为您可能需要多次执行特定任务,那么您可以重用该函数。这使您不必过于频繁地复制和粘贴代码,从而节省时间并有助于防止错误。)

# 函数替换所提供数据帧的所提供列中的行
# 将高于提供比率的提供字符串与提供的字符串匹配
def replace_matches_in_column(df, column, string_to_match, min_ratio = 47):
    # 获取唯一字符串的列表
    strings = df[column].unique()
    
    # 获取与输入字符串最接近的前10个匹配项
    matches = fuzzywuzzy.process.extract(string_to_match, strings, 
                                         limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

    # 仅获取比率>90的匹配项
    close_matches = [matches[0] for matches in matches if matches[1] >= min_ratio]

    # 获取数据帧中所有紧密匹配的行
    rows_with_matches = df[column].isin(close_matches)

    # 将所有行替换为输入匹配的紧密匹配
    df.loc[rows_with_matches, column] = string_to_match
    
    # 让我们知道功能已经完成
    print("All done!")

现在我们有了一个函数,我们可以对它进行测试了!

# 使用我们刚刚编写的函数,将与“south korea”的匹配项替换为“with "south korea”
replace_matches_in_column(df=professors, column='Country', string_to_match="south korea")

现在让我们再次检查“国家”栏中的独特值,确保我们正确地整理了“south korea”。

# 获取“国家”列中的所有唯一值
countries = professors['Country'].unique()

# 按字母顺序排序,然后仔细查看
countries.sort()
countries

杰出的现在我们的数据框中只有“south korea”,我们不需要手动更改任何内容。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值