数据处理2

Kaggle项目:房价预测(1)

http://ddrv.cn/a/288668

2.2 数据探索分析

2.2.1 分析目标变量(SalePrice)

2.2.2 分析特征变量

2.2.2.2 定量变量分析

ãKaggle项ç®ï¼æ¿ä»·é¢æµ(1)ããKaggle项ç®ï¼æ¿ä»·é¢æµ(1)ã

2.2.2.3 定性变量分析(方差分析)

2.2.2.4 相关性(spearman相关系数)

ãKaggle项ç®ï¼æ¿ä»·é¢æµ(1)ã

3. 数据清洗

3.1 离群点处理

3.2 缺失值处理

Kaggle平台Titanic生存率预测项目(TOP3%)

https://zhuanlan.zhihu.com/p/50194676

Kaggle经典案例——泰坦尼克号

https://zhuanlan.zhihu.com/p/71840687

[kaggle数据] 泰坦尼克号生存预测分析

https://blog.csdn.net/regina67/article/details/77940640

特征工程

因为是对生存预测进行分析,所以主要是对Survived和其他变量进行可视化分析,可以在一定程度上观察他们间是否相关。

1、Pclass(乘客分集)

2、Name(字符变量)

3、Sex(二分类数据)

4、age(多分类)

5、SibSp和Parch(这个两个变量都表示家人的数量,所以把他们合并成一个变量Family)

6、Fare(费用数据)

7、Cabin(舱号二分类处理)

8、Embarked(上船的位置)

9、变量相关性

kaggle 旧金山犯罪案件分类预测

https://blog.csdn.net/iam_emily/article/details/80876042

数据分析

1、PdDistrict

2、Category

3、year/month/day

4、Day of week

png

5、地图坐标展示

png

数据处理

类别特征:Dates,Descript,DayOfWeek,PdDistrict,Resolution,Address 
数值型特征:X,Y,year,month,day,hour 
时间特征:date

 

pandas文本数据转整数分类编码的最佳实践https://www.mlln.cn/2018/09/18/pandas%E6%96%87%E6%9C%AC%E6%95%B0%E6%8D%AE%E8%BD%AC%E6%95%B4%E6%95%B0%E5%88%86%E7%B1%BB%E7%BC%96%E7%A0%81%E7%9A%84%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值