机器学习课堂笔记

一.算法与流程
1.机器学习的主要流程是 明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新。
2.怎么样进行 数据收集
收集相关的数据(内部业务系统的数据、外部数据)
外部数据可以通过网络爬虫、购买或交易方式获得。
3. 数据预处理
数据可能存在着噪声、不一致、异常、个人隐私保护等各类
问题。 为保证数据的质量,必要的数据治理是需要的。
4. 数据建模
算法本身没有绝对的好坏,不同的机器学习算法都有各自的
使用范围。
选择合适的建模方法或算法,算法的好坏需要实验比较确定。
此阶段是机器学习的核心部分,使用精巧复杂的分析方法从
数据中提取知识,包括选择建模技术、生成测试设计以及构
建和评估模型。
算法调优(包括参数或结构等方面)
机器学习算法是科学,应用是艺术。
5.效果评估
选定模型之后,就可以评估机器学习结果在多大程度上能够
帮助实现业务目标。此阶段的要素包括评估学习结果,以便
为机器学习的过程提供反馈。
样本测试、现场抽样实验等。
6.分类算法
回归 分析是分析一个变量与其他一个(或几个)
变量之间的相关关系的统计方法。
分类 就是通过分析训练集中的数据,为每个类
别做出准确的描述或建立分析模型或挖掘出分
类规则,然后用这个分类规则对其它数据对象
进行分类。
决策树、支持向量机、神经网络、朴素贝叶斯、
Bayes 网络、 k- 最近邻 等是几种常用的分类方法。
7. 神经网络
 传统的神经网络为BP神经网络,基本网络结构为输入层、隐藏层和输出层,节点代表神经元,
边代表权重值,对输入值按照权重和偏置计算后将结果传给下一层,通过不断的训练修正权
重和偏置。递归神经网络(RNN)、卷积神经网络(CNN)都在神经网络在深度学习上的变种。
 神经网络的训练主要包括前向传输 反向传播
 神经网络的结果准确性与训练集的样本数量和分类质量有关。
 神经网络是基于历史数据构建的分析模型,新数据产生时需要动态优化网络的结构和参数
8. 机器学习常用算法
聚类 分析是把一个给定的数据对象(样本)
集合分成不同的簇(组)。
 聚类就是把整个数据分成不同的组,并使组
与组之间的差距尽可大,组内数据的差异尽
可能小。
 K-means 是一种常用的聚类算法, 用户指定聚
类的类别数K,随机地选择K个对象作为K个初
始聚类中心。对剩余的每个对象,分别计算
与初始聚类中心的距离,根据距离划到不同
的簇。然后重新计算每个簇的平均值,求出
新的聚类中心,再重新聚类。 这个过程不断
重复,直到收敛(相邻两次计算的聚类中心
相同)。

二.统计学理论

1.统计分析的基本概念 

监督学习依赖于带有已知标签的数据集进行模型训练,通过比较预测值与真实值调整模型参数。 无监督学习无需标签数据,通过聚类、降维等技术探索数据内在结构和隐藏模式。 半监督学习利用有限的标签数据和大量无标签数据共同训练模型,提高学习效率和 泛化能力。 强化学习通过与环境的交互和试错,不断调整策略以获得最大化累积回报,适用于序列决策问题。

2.统计学习方法三要素

 策略选择影响模型性能

在机器学习中,策略的选择直接关系到模型泛化能力的高低。合理选 择训练算法、参数调整和估准则

能有效提升 模型性能。
策略选择影响模型性能
统计学习理论表明,数据的真实分布影响学习策略的有效性。适应数 据分布的策略能够减少过拟合,提 高模型的准确性。
数据分布影响策略有效性
策略实施前的特征选择能够显著降低数据的维度,选择有信息量的特 征可以显著提升机器学习略的性能表现
3.判别模型
Logistic回归与分类决策
Logistic回归通过转换线性模型输出为概率分布,适用于二分类问题,并给出明确的分
类决策边界。
最大熵原理与信息最大化
最大熵模型基于最大熵原理,确保模型在符合已知约束下,对于未知数据保持最大不确
定性,实现信息最大化。
特征选择与模型性能
Logistic回归和最大熵模型对特征选择敏感,合理的特征组合和选择能显著提升模型的
分类性能。
正则化与模型泛化
在Logistic回归和最大熵模型中加入正则化项,能有效防止过拟合,提高模型的泛化能
力,尤其对于高维数据至关重要。
Read
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值