20/03/04 机器学习---导论 (2)

本文介绍了机器学习中的数据集概念,包括行与列的含义,特殊列类别标签,以及特征向量。讨论了数据集切分、训练与测试集的使用,强调了误差类型和性能评价标准,如准确率、精确率和F1-Score。提到了监督学习、无监督学习、半监督学习和强化学习,并举例了手写体识别作为机器学习的应用。最后,概述了构建机器学习系统的关键要素:数据、算法和策略,以及模型选择、正则化和交叉验证的重要性。
摘要由CSDN通过智能技术生成
  • 机器学习关于数据集的概念
    • 什么样的数据集
    • 数据集的行:记录(关系型数据库)
      数据集的行:样本或实例(机器学习)
    • 数据集的列:字段(关系型数据库)
      数据集的列:特征、属性(机器学习)
      =>特殊的列:类别标签
      =>特征或属性空间:由特征张成的维
      =>特征或属性向量:组成特征或属性特征的样本点(行)
      =>特征或属性值:组成特征向量中的值
    • 将数据集切分,训练集:测试集 =6:4 | 7:3 | 8:2
      训练集=X(特征)+Y(类别标签)
      使用训练集+算法构成模型解决实际问题
      测试集:测试数据X+Y
      通过模型计算的y_pred vs Y =>误差
    • 误差error:进行校验结果情况
      (1) y-y_pred
      (2) |y-y_pred| 绝对误差
      (3) (y-y_pred)**2 平方误差
      (4) 训练误差
      (5) 测试误差
      (6) 泛化误差
    • 对于非数值型的特征需要通过编码转化为数值型变量:
      labelencoder标签编码
      onehot encoder独热编码(注意使用其需要扩张维度)
    • 性能评价标准:性能矩阵/混淆矩阵
      TP: True Positive
      FN: False Negative
      FP: False Positive
      TN: True Negative
      准确率Accuracy
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值