机器学习
通过全面学习机器学习基本知识,系统的掌握机器学习相关理论,以实践为导向,练习机器学习算法的相关应用
爱喝水的社长
一个小白的趟雷之路~~
展开
-
机器学习基础算法-朴素贝叶斯
1、为什么可以使用bayes对未知数据进行分类 首先要了解bayes的概率、条件概率,以及将条件概率应用到分类中 bayes的概率是一个逆向概率,详细内容查看bayestheory.md 可以使用bayes主要是因为在知道某个条件的基础上,可以反推某一事件发生的概率 在机器学习中使用的样本数据就是我们提前知道的一些信息,这些就是已知的信息 这些已知的信息在bayes的定理中,就是先验概率的影响因子 利用bayes定理计算所有分类的概率,哪个概率高,这个未知的数据就是这个分类 2、bayes分类过程 根原创 2020-11-06 20:37:07 · 146 阅读 · 0 评论 -
机器学习基础算法-决策树
后面的文章打算只整理算法流程和该算法的思想,因为之前一篇写的自己来看,好像也没写啥东西 决策树前提知识条件 信息熵知识 熵:熵的值越高,数据集中的数据混合度越高,数据混合度越高,说明分类越差 b站的一个视频,我觉得把信息熵讲的挺好,推荐看一下,主要是把具体的含义讲出来了,方便我们理解抽象的公式。 信息公式: 信息公式: 信息熵的公式: 缺点 这个决策树有个缺点,(我自己认为的,也不知道对不对) 当待检测数据集中出现了某个特征没有的值的时候,这个就没有办法分类了 决策树的构建过程 先从样本数据集中选出最原创 2020-11-06 19:31:21 · 695 阅读 · 0 评论 -
机器学习基础算法-k近邻算法
算法概述 算法定义:k近邻采用计算预测点与样本数据特征的距离,选取k个距离最近的样本标签(这个标签其实就是数据的分类,这个数据属于哪个类别,比如某一条电影数据前面有好几个特征值,后边这个标签就是标记这条电影数据属于那种类型的电影,例如属于爱情类电影,这个标签就是爱情),找到k个距离最近的样本标签后,统计这k个样本重出现次数最多的那个分类。 算法条件:需要有样本数据,由于需要计算距离,样本数据特征之间的数值大小相差不应该太大,比如某个特征数值为10000,另外一个特征数值为0.11,这样计算出来的距离和第一个原创 2020-10-30 15:43:09 · 208 阅读 · 0 评论 -
机器学习基础算法-系列概要
系列概要 最近时间算是比较充裕了,打算写一个系列的学习文章,和大家一起分享,也是对自己的一个督促,在文章中我会用尽量通俗易懂的语言,结合一些实例来学习机器学习的基础算法。 计算机环境 计算机操作系统:windowns 10 python version: Python 3.7.0 (default, Jun 28 2018, 08:04:48) [MSC v.1912 64 bit (AMD64)] IDE:目前使用的是spyder3.3,这个是anaconda自带的一个IDE 系列内容 在这个系类中,主要原创 2020-10-30 14:07:06 · 179 阅读 · 0 评论