机器学习
文章平均质量分 88
以实战为线索,搜集所有机器学习算法,详解代码实现原理,供日常学习和查阅。
一碗姜汤
科学的世界谈不上真正的理解,你只是去习惯它。
展开
-
【机器学习00】引论
一直觉得光看看视频,学不到精髓,还常常把自己弄得烦躁不堪。于是打算从SVM开始,想把看视频的整个学习历程用博客的形式写下来。什么是机器学习:我们事先并不约束计算机必须总结出什么规律。而是让计算机自己去探索一种最大化收益函数的行为或者规律。在这其中,从一大堆训练样本里试错,积累经验 E ,最终以一个不错的效果(性能指标 P)达成任务 T。 数学中典型的最优化过程。举例:任务T:设计程序让机器人冲咖啡。经验E:机器人多次尝试的行为,和这些行为产生的结果。性能测度P:在规定时间内成功充好咖原创 2022-01-25 17:01:55 · 1400 阅读 · 0 评论 -
【机器学习01】基本概念
机器学习是计算机科学的一个分支,通过算法和统计模型使计算机系统能够在没有明确指令的情况下执行特定任务。机器学习的核心思想是从数据中学习规律,并基于这些规律进行预测或决策。原创 2024-05-21 13:34:31 · 594 阅读 · 0 评论 -
【机器学习02】模型评估
没有测量,就没有科学。”这是科学家门捷列夫的名言。在计算机科学特别是机器学习领域中,对模型的评估同样至关重要。只有选择与问题相匹配的评估方法,才能快速地发现模型选择或训练过程中出现的问题,迭代地对模型进行优化。模型评估主要分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题,评估指标的选择也有所不同。知道每种评估指标的精确定义、有针对性地选择合适的评估指标、根据评估指标的反馈进行模型调整,这些都是机器学习在模型评估阶段的关键问题,也是一名合格的算法工程师应当具备的基本功。原创 2024-01-09 16:28:48 · 834 阅读 · 0 评论 -
【机器学习03】特征工程
对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。它对原始数据进行线性变换,使结果映射到【0,1】的范围,实现对数据的等比放缩。它会将原始数据映射到均值为0,标准差为1的分布上。的信息增益比,而信息增益比跟特征是否归一化是无关的,因为归一化并不会改变样本在特征。的取值范围为【0,3】,于是可以构造一个目标函数符合图1.1(a)中的等值图。归一化到相同的数值区间后,优化目标的等值图会变成图1.1(b)中的圆形。当然,数据归一化并不是万能的。的取值范围为【0,10】,原创 2023-12-28 21:42:09 · 349 阅读 · 0 评论 -
【机器学习04】基础算法
在决策树中,如果某些特征最终没有被用到,这并不意味着这些特征完全无用。特征的相关性较低这些未被用到的特征可能与目标变量的相关性较低,或者它们提供的信息已经被其他特征所覆盖。在构建决策树时,算法会优先选择那些能够最大化信息增益(或最小化不纯度)的特征。如果某个特征与目标变量的关联不够显著,或者其信息被其他特征所包含,它就可能在最终的决策树中被忽略。决策树的剪枝过程在决策树的构建过程中,可能会通过剪枝(预剪枝或后剪枝)来防止过拟合,提高模型的泛化能力。剪枝过程可能会移除一些分支,从而导致某些特征未被用到。原创 2024-03-18 16:27:12 · 992 阅读 · 0 评论 -
【机器学习05】集成学习
投票法(Voting)是一种集成学习技术,它结合了多个不同的模型来提高整体模型的性能。这种方法基于一个简单的前提:多个模型的集体决策比单一模型的决策更可靠。投票法通常分为两种类型:硬投票(Hard Voting)和软投票(Soft Voting)。硬投票(Hard Voting)在硬投票中,每个模型对于每个样本都给出一个预测类别(即最终的输出标签)。整体模型的预测结果是基于“多数投票”的原则得出的,即被最多模型选中的类别成为最终的预测结果。原创 2024-03-18 16:29:54 · 1001 阅读 · 0 评论 -
【机器学习06】聚类基本概念
聚类是针对给定的样本,一句他们特征的相似度或距离,将其归并到若干个”类“或”簇“的数据分析问题。一个类是样本的一个子集。直观上,相似的样本聚集在相同的类,不相似的样本分散在不同的类。样本之间的相似度或距离起着重要作用。相似度或距离聚类的对象是观测数据,或样本集合。假设有n个样本,每个样本由m个属性的特征向量组成。样本集合可以用矩阵X表示:1. 闵可夫斯基距离(样本和)p=2时为欧氏距离;p=1时为曼哈顿距离;p=时为切比雪夫距离:(取各坐标数值差的绝对值的最大...原创 2022-02-13 15:00:44 · 2980 阅读 · 0 评论 -
【机器学习07】高斯混合模型
高斯混合模型(Guassian Mixed Model, GMM)也是一种常见的聚类算法,与K均值算法类似,同样使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布的,当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。图5.6是一个数据分布的样例,如果只用一个高斯分布来拟合图中的数据,图中所有的椭圆即为高斯分布的二倍标准差所对应的椭圆。。图5.7是用两个高斯分布的叠加来拟合得到的结果。这就引出了高斯混合模型,即用多个高斯分布函数的线性组合来对数据分布进行拟合。原创 2024-01-14 00:00:40 · 1129 阅读 · 0 评论 -
【机器学习08】详解正则化思想
我们的生活当中真正有意义或者有价值的部分可以概括为两句话:一句话是:弄清楚某个东西是怎么一回事,另一句话是,弄清楚某个东西是怎么一回事。头一句话,我们弄清楚的那个东西对于我们而言是未知的,但是已经被别人搞明白了,我们要通过学习,来弄清楚它是怎么一回事,增长我们的知识。而第二句话我们去弄清楚的东西是这个世界上没人明白的东西。那么你要把他弄清楚。事实上你如果想要毕业,你在第二个问题上总要做那么一点点。考试只是一种比较被动的为了分配比较紧张的教育资源而不得已采用的非常low的做法。在聊正则化之前,先来假设问原创 2024-03-07 14:08:33 · 1263 阅读 · 0 评论 -
【机器学习09】支持向量机SVM
首先区分一对概念:线性可分:存在一条直线或一个平面或超平面,可以将样本集分开。非线性可分:不存在......这里我们假设中间那条直线的方程为:权重(weight):偏置(bias):值得注意的是:在直线的两侧,直线方程分别 大于零 和 小于零,这个规定可以是人为的。接着用数学严格定义训练样本以及他们的标签:假设:有个样本和他们的标签。其中规定:如果,则反之,线性可分的严格定义:一个训练样本集在线性可分,是指存在,使得对,有:(1)若,则(...原创 2022-01-26 00:02:08 · 7319 阅读 · 0 评论