数据预处理实例演示

最新推荐文章于 2024-04-18 15:39:18 发布

zhangt766

最新推荐文章于 2024-04-18 15:39:18 发布

阅读量2.4k

点赞数 1

分类专栏：数据分析文章标签： python 机器学习

本文链接：https://blog.csdn.net/zhangt766/article/details/120390594

版权

数据分析专栏收录该内容

4 篇文章 2 订阅

订阅专栏

1.数据读取-读取7个csv文件

data_list=[]
for i in range(1,8):
    data=pd.read_csv('./data{}.csv'.format(i))
    data_list.append(data)

2.数据合并与选取

将csv放进list里后，7个csv是独立数据，len(data_list) #out=7, 此时我们要使用concat将数据融合在一起（注意，pandas concat函数需要传入的是列表，本例中我们的数据正好是列表）

data=pd.concat(data_list)

3.探索数据

有了数据后可以对数据进行探索

data.head()      #查看数据前五行

data.describe()  #描述数据的基本情况，包括count，mean，min，max

data.info()      #介绍数据的信息，包括数据类型，有多少列多少行

data.shape()     #多少列多少行

data.dtypes      #查看数据类型

data.columns：   #以列表的形式显示数据表的列名

data.loc[n]：    #返回索引值为n的行

data.loc[m][n]： #返回索引值为m行n列的数据

data.loc[m:n]：  #返回索引值为m到n的行

data.columns.tolist()：#将列名做成列表

data.sort_values("str",inplace=True, ascending=False)：
#将str一列按照降序排列，且得到的数据替换原数据

data=data[['col1','col2','col3']]  #选取其中对几列进行分析

4.缺失值和重复值处理

缺失值：

(data.isnull()).sum()

data.dropna(how='all', inplace=True)

df.isnull().sum(axis=0).sort_values(ascending=False)/float(len(df))# 检查缺失值比例

重复值：

(data.duplicated()).sum()

(data.duplicate(subset=['col1','col2'])).sum() #根据col1, col2来看有多少重复值

data.dropduplicates(subset=['col1','col2'],inplace=True)

5.数据类型转换

将34464元/平变成 34464数字型

在处理之前，先检查这一列，是否所有的数据都包含元/平

data.colname.str.contains('元/平')

返回的结果难以统计，这时候可以取反

(～data.colname.str.contains('元/平')).sum()

data.colname.str.replace('元/平','').astype(np.float32)

6.异常值

比如，房价是大于0的，但是当我们查看最小值后，发现最小值为0，这里要进行筛选

data=data[data.colname>10000]

zhangt766

关注

1
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
数据预处理实例演示

1.数据读取-读取7个csv文件data_list=[]for i in range(1,8): data=pd.read_csv('./data{}.csv'.format(i)) data_list.append(data)2.数据合并与选取将csv放进list里后，7个csv是独立数据，len(data_list) #out=7, 此时我们要使用concat将数据融合在一起（注意，pandas concat函数需要传入的是列表，本例中我们的数据正好是列表）..
复制链接

扫一扫