导论class2

数据集名称(业务上要解决的问题)
机器学习中的数据集行和列:行是样本/实例;列是特征/属性
类别标签列
特征或属性空间:由特征张成的特征空间
特征或属性向量:组成特征或属性空间中的样本点(行)
特征或属性值:组成特征向量中的值
定义多少行,定义多少列,定义多少类别标签列。
特征列如果是非数值型,应该将其转化为数值。
1.labelencoder标签编码
2.onehot encoder独热编码(将维度扩大)
概念学习:布尔函数氏学习
正例与反例
分类问题(类别标签为离散型)与回归问题(类别标签为连续)
分类:
有监督学习(训练数据集中有类别标签)-任务驱动型
常见算法:
分类问题:决策树算法/KNN/SVM/perception neural network/logistic regression
回归问题:简单线性回归;多元线性回归;Ridgel回归;Lassol回归;ElasticNet回归。
非监督学习(无类别标签:根据特征的相似性或相异性对数据分类、检测异常)-数据驱动型
包括聚类(KMeans)和降维(PCA/LDA)
半监督学习:(有些有类别标签有些没有)
聚类的假设:先根据特征的相似性相异性将样本分组,这时一个组中包括了有标签和无标签样本,根据有标签样本的投票,将无标签的样本打上标签(无标签转化为有标签)。

强化学习:机器学习的重要分支,解决的是连续决策的问题。是一个环境与智能体之间相互作用的连续闭环。介于有监督和无监督之间。
迁移学习:将数据量大的领域构建一个模型,再将这个模型应用于一个数据量小的模型上。

模型:分为决策函数(输出是否)和条件概率分布函数(输出概率)
策略(评价模型好坏-损失函数/误差函数/目标函数):0-1损失函数(模型为决策函数);平方损失函数(条件概率分布函数);绝对损失函数;对数损失函数。
算法:提供求解模型参数的方法。

模型的泛化能力:为了让模型不但在训练集上效果好,在测试集上效果也好(过拟合是模型过于复杂时,在训练集上效果好,在测试集上效果不好)。模型在训练初期,模型过于简单,这时候要增加多项式的项,增加多项式项的次数。在模型训练的中后期,由于模型过于复杂,数据不纯或者训练数据量太少,出现过拟合。这是要增加正则罚项,重新清洗数据,增加训练数量,对样本抽样或特征进行抽样,dropout-随机丢弃一些点(深度学习)。奥卡姆剃刀原则:防止过拟合相同泛化误差时,选择简单模型。

经验风险+正则罚项=结构风险

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值