- 机器学习关于数据集的概念
- 什么样的数据集
- 数据集的行:记录(关系型数据库)
数据集的行:样本或实例(机器学习) - 数据集的列:字段(关系型数据库)
数据集的列:特征、属性(机器学习)
=>特殊的列:类别标签
=>特征或属性空间:由特征张成的维
=>特征或属性向量:组成特征或属性特征的样本点(行)
=>特征或属性值:组成特征向量中的值 - 将数据集切分,训练集:测试集 =6:4 | 7:3 | 8:2
训练集=X(特征)+Y(类别标签)
使用训练集+算法构成模型解决实际问题
测试集:测试数据X+Y
通过模型计算的y_pred vs Y =>误差 - 误差error:进行校验结果情况
(1) y-y_pred
(2) |y-y_pred| 绝对误差
(3) (y-y_pred)**2 平方误差
(4) 训练误差
(5) 测试误差
(6) 泛化误差 - 对于非数值型的特征需要通过编码转化为数值型变量:
labelencoder标签编码
onehot encoder独热编码(注意使用其需要扩张维度) - 性能评价标准:性能矩阵/混淆矩阵
TP: True Positive
FN: False Negative
FP: False Positive
TN: True Negative
准确率Accuracy
20/03/04 机器学习---导论 (2)
最新推荐文章于 2021-03-22 23:07:15 发布
本文介绍了机器学习中的数据集概念,包括行与列的含义,特殊列类别标签,以及特征向量。讨论了数据集切分、训练与测试集的使用,强调了误差类型和性能评价标准,如准确率、精确率和F1-Score。提到了监督学习、无监督学习、半监督学习和强化学习,并举例了手写体识别作为机器学习的应用。最后,概述了构建机器学习系统的关键要素:数据、算法和策略,以及模型选择、正则化和交叉验证的重要性。
摘要由CSDN通过智能技术生成