一个简介:Python中的pandas库为我们提供了DataFrame数据结构,可以方便地进行数据的筛选、转换、分析和可视化等操作。DataFrame中的每行数据可以通过iterrows()方法遍历,该方法返回每行的索引和对应的数据,我们可以在遍历中对每行数据进行处理。
下面是一段使用iterrows()方法逐行读取数据的代码:
df = pd.read_excel('data.xlsx')
#逐行读取
for index, row in df.iterrows():
其中,df是一个DataFrame对象,index是当前行的索引,row则是当前行对应的数据。
例如,在某一个需要处理的数据集中,将很多类型放在了一个格中,但我们需要将这些颜色类型分开提取出记录:
no | Types |
1 | 蓝色#红色#白色# |
... | ... |
# 读取consultTypes列并转化为列表
types_str = row['Types']
types = types_str.split('#')
我们首先使用iterrows()方法遍历这些行,接下来,我们通过Types_str.split('#')的方式,将每行的Types列中的数据按照#符号进行分隔,并转化为一个列表,存储在types变量中。
这样,我们就可以在遍历每一行数据时,将每行的Types列中的数据进行分割,并存储在types变量中,方便后续的处理和使用。
一个总结:iterrows()方法可以帮助我们遍历DataFrame中的每一行数据,使我们可以方便地对每一行数据进行处理,包括筛选、转换、分析和可视化等操作。而使用split()方法则可以帮助我们将字符串类型的数据按照指定符号进行分割,并转化为列表,方便后续的处理和使用~