前面我自己写的我看着都头大,我看看能不能给大家写的精简点,好理解。
我们需要的数据:
链接:https://pan.baidu.com/s/1xr4x43bfEe4hVWYtwiFGRw
提取码:yabw
如果链接失效一定要在评论区说一下。
数据的预处理
1.数据分析的步骤:
获取数据---->数据预处理---->数据分析---->数据挖掘
2.数据预处理:数据分析和数据挖掘的瓶颈(这里看看就行,具体方法就是使用pandas和numpy包进行操作,这在之前是讲过的)
包括的内容:
-获取数据
-载入数据
-清洗数据:异常
-清洗数据:维度
-清洗数据:粒度
-缺失值;无效值;格式转换;命名转换;类型转换
3、数据的载入:
import pandas as pd
#打开文件(数据分析数据可视化的时候讲过打开文件用的几个函数)
data=pd.read_csv(r'D:\BaiduNetdiskDownload\数据挖掘打包资料\数据挖掘打包资料\tips.csv')
print(data.head())
#输出前五行
total_bill,tip,sex,smoker,day,time,size
0 16.99,1.01,Female,No,Sun,Dinner,2
1 10.34,1.66,Male,No,Sun,Dinner,3
2 21.01,3.5,Male,No,Sun,Dinner,3
3 23.68,3.31,Male,No,Sun,Dinner,2
4 24.59,3.61,Female,No,Sun,Dinner,4
print<