Kaggle项目:房价预测(1)
2.2 数据探索分析
2.2.1 分析目标变量(SalePrice)
2.2.2 分析特征变量
2.2.2.2 定量变量分析
2.2.2.3 定性变量分析(方差分析)
2.2.2.4 相关性(spearman相关系数)
3. 数据清洗
3.1 离群点处理
3.2 缺失值处理
Kaggle平台Titanic生存率预测项目(TOP3%)
https://zhuanlan.zhihu.com/p/50194676
Kaggle经典案例——泰坦尼克号
https://zhuanlan.zhihu.com/p/71840687
[kaggle数据] 泰坦尼克号生存预测分析
https://blog.csdn.net/regina67/article/details/77940640
特征工程
因为是对生存预测进行分析,所以主要是对Survived和其他变量进行可视化分析,可以在一定程度上观察他们间是否相关。
1、Pclass(乘客分集)
2、Name(字符变量)
3、Sex(二分类数据)
4、age(多分类)
5、SibSp和Parch(这个两个变量都表示家人的数量,所以把他们合并成一个变量Family)
6、Fare(费用数据)
7、Cabin(舱号二分类处理)
8、Embarked(上船的位置)
9、变量相关性
kaggle 旧金山犯罪案件分类预测
https://blog.csdn.net/iam_emily/article/details/80876042
数据分析
1、PdDistrict
2、Category
3、year/month/day
4、Day of week
5、地图坐标展示
数据处理
类别特征:Dates,Descript,DayOfWeek,PdDistrict,Resolution,Address
数值型特征:X,Y,year,month,day,hour
时间特征:date
pandas文本数据转整数分类编码的最佳实践https://www.mlln.cn/2018/09/18/pandas%E6%96%87%E6%9C%AC%E6%95%B0%E6%8D%AE%E8%BD%AC%E6%95%B4%E6%95%B0%E5%88%86%E7%B1%BB%E7%BC%96%E7%A0%81%E7%9A%84%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5/