导论class2

最新推荐文章于 2022-12-04 17:28:21 发布

亦木立青

最新推荐文章于 2022-12-04 17:28:21 发布

阅读量177

点赞数

本文链接：https://blog.csdn.net/weixin_45731700/article/details/102855233

版权

数据集名称（业务上要解决的问题）
机器学习中的数据集行和列：行是样本/实例；列是特征/属性
类别标签列
特征或属性空间：由特征张成的特征空间
特征或属性向量：组成特征或属性空间中的样本点（行）
特征或属性值：组成特征向量中的值
定义多少行，定义多少列，定义多少类别标签列。
特征列如果是非数值型，应该将其转化为数值。
1.labelencoder标签编码
2.onehot encoder独热编码（将维度扩大）
概念学习：布尔函数氏学习
正例与反例
分类问题（类别标签为离散型）与回归问题（类别标签为连续）
分类：
有监督学习（训练数据集中有类别标签）-任务驱动型
常见算法：
分类问题：决策树算法/KNN/SVM/perception neural network/logistic regression
回归问题：简单线性回归；多元线性回归；Ridgel回归;Lassol回归;ElasticNet回归。
非监督学习（无类别标签：根据特征的相似性或相异性对数据分类、检测异常）-数据驱动型
包括聚类（KMeans)和降维（PCA/LDA)
半监督学习：（有些有类别标签有些没有）
聚类的假设：先根据特征的相似性相异性将样本分组，这时一个组中包括了有标签和无标签样本，根据有标签样本的投票，将无标签的样本打上标签（无标签转化为有标签）。

强化学习：机器学习的重要分支，解决的是连续决策的问题。是一个环境与智能体之间相互作用的连续闭环。介于有监督和无监督之间。
迁移学习：将数据量大的领域构建一个模型，再将这个模型应用于一个数据量小的模型上。

模型：分为决策函数（输出是否）和条件概率分布函数（输出概率）
策略（评价模型好坏-损失函数/误差函数/目标函数）：0-1损失函数（模型为决策函数）；平方损失函数（条件概率分布函数）；绝对损失函数；对数损失函数。
算法：提供求解模型参数的方法。

模型的泛化能力：为了让模型不但在训练集上效果好，在测试集上效果也好（过拟合是模型过于复杂时，在训练集上效果好，在测试集上效果不好）。模型在训练初期，模型过于简单，这时候要增加多项式的项，增加多项式项的次数。在模型训练的中后期，由于模型过于复杂，数据不纯或者训练数据量太少，出现过拟合。这是要增加正则罚项，重新清洗数据，增加训练数量，对样本抽样或特征进行抽样，dropout-随机丢弃一些点（深度学习）。奥卡姆剃刀原则：防止过拟合相同泛化误差时，选择简单模型。

经验风险+正则罚项=结构风险

亦木立青

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
导论class2

数据集名称（业务上要解决的问题）机器学习中的数据集行和列：行是样本/实例；列是特征/属性类别标签列特征或属性空间：由特征张成的特征空间特征或属性向量：组成特征或属性空间中的样本点（行）特征或属性值：组成特征向量中的值定义多少行，定义多少列，定义多少类别标签列。特征列如果是非数值型，应该将其转化为数值。1.labelencoder标签编码2.onehot encoder独热编码（将...
复制链接

扫一扫