数据集分为测试集和训练集。
训练集 :就是拿来给你训练的样例 ,平时刷的题。带答案
测试集 :你的考试。不带答案
给的数据集的解释
大赛用f1_score评价做的结果好不好
precision :TP/(TP+FP)
recall : TP/(TP+FN)
机器学习处理数据的时间占大头
数据清洗:这里把(离得较远的)离群的数据剔除,把NaN和INF也都拿掉。一般会把别的类型转换成数字。
特征工程:可能会有冗余的数据,把冗余的数据做一些变化然后就ok了
如何让模型更好:方法1改模型 方法2改输入的数据
head(10)显示前10个,head()默认是5,也可以写tail(),显示后5个
info这个显示表的每个属性的类型