机器学习算法建模流程:
- 1.获取数据,并数据清洗;
- 2.数据集分为训练集和测试集
- 3.建模机器学习模型;
- 4.训练模型:k折交叉验证,就是将训练集随机分为K份,然后,我们依次选择其中的k-1份来进行训练,剩下的1份用来进行测试,循环k次(每次组合的K-1份都不相同)
- 5.通过训练出的模型去测试测试集数据
介绍几种常用的性能度量的指标
下面来说下解释下TP,FP,TN和FN
TP(True Positive):真正例,即将一个实际为正例的样本正确的判断为正例
FP(False Positive):假正例,即将一个实际为负例的样本错误的判断为正例
TN(True Negtive):真负例,即将一个实际为负例的样本正确的判断为负例
FN(False Negtive):假负例,即将一个实际为正例的样本错误的判断为负例
查准率(Precision):
预测为正例的样本中,实际为正例所占的比例,公式为: Precision=TP/(TP+FP)
查全率(也叫做召回率)(Recall):
正确预测为正例的样本数占所有正例的比率,公式为: Recall=TP/(TP+FN)
准确率(Accuracy):
所有样本中,预测正确的所占的比例,公式为: Accuracy=TP