数据分析简介:
-
在动手进行数据分析工作之前,需要进行数据清理工作,数据清理的主要目标是
-
每个观测值成一行
-
每个变量成一列
-
每种观测单元构成一张表格
-
-
数据整理好之后,可能需要多张表格组合到一起才能进行某些问题的分析
-
一张表保存公司名称,另一张表保存股票价格
-
单个数据集也可能会分割成多个,比如时间序列数据,每个日期可能再一个单独的文件
-
数据连接
-
组合数据的一种方法是使用“连接”(concatenation)
-
连接是指把某行或某列追加到数据中
-
数据被分成了多份可以使用连接把数据拼接起来
-
把计算的结果追加到现有数据集,可以使用连接
-
添加行
DataFrame纵向连接并重置索引
pd.concat([df1, df2, ...])
多个df纵向连接返回一个新的df
df.append
添加行数据
-
df.append
函数:concat可以连接多个对象,如果只需要向现有DataFrame追加一个对象,可以通过append函数来实现 -
df添加列
-
通过
df['列名']=[列值列表]
的方式添加 -
多个df横向连接
-
使用concat函数添加列,与添加行的方法类似,需要多传一个
axis=1
的参数