20/03/04 机器学习---导论 (2)

最新推荐文章于 2021-03-22 23:07:15 发布

weixin_44602323

最新推荐文章于 2021-03-22 23:07:15 发布

阅读量168

点赞数

本文链接：https://blog.csdn.net/weixin_44602323/article/details/104640686

版权

本文介绍了机器学习中的数据集概念，包括行与列的含义，特殊列类别标签，以及特征向量。讨论了数据集切分、训练与测试集的使用，强调了误差类型和性能评价标准，如准确率、精确率和F1-Score。提到了监督学习、无监督学习、半监督学习和强化学习，并举例了手写体识别作为机器学习的应用。最后，概述了构建机器学习系统的关键要素：数据、算法和策略，以及模型选择、正则化和交叉验证的重要性。

摘要由CSDN通过智能技术生成

                    
                        
                    
                    机器学习关于数据集的概念 
  什么样的数据集
数据集的行：记录（关系型数据库）
 数据集的行：样本或实例（机器学习）
数据集的列：字段（关系型数据库）
 数据集的列：特征、属性（机器学习）
 =>特殊的列：类别标签
 =>特征或属性空间：由特征张成的维
 =>特征或属性向量：组成特征或属性特征的样本点（行）
 =>特征或属性值：组成特征向量中的值
将数据集切分，训练集：测试集 =6：4 | 7：3 | 8：2
 训练集=X(特征)+Y(类别标签)
 使用训练集+算法构成模型解决实际问题
 测试集：测试数据X+Y
 通过模型计算的y_pred vs Y =>误差
误差error:进行校验结果情况
 (1) y-y_pred
 (2) |y-y_pred| 绝对误差
 (3) (y-y_pred)**2 平方误差
 (4) 训练误差
 (5) 测试误差
 (6) 泛化误差
对于非数值型的特征需要通过编码转化为数值型变量：
 labelencoder标签编码
 onehot encoder独热编码（注意使用其需要扩张维度）
性能评价标准:性能矩阵/混淆矩阵
 TP: True Positive
 FN: False Negative
 FP: False Positive
 TN: True Negative
 准确率Accuracy