机器学习
文章平均质量分 92
比奇堡咻飞兜
我很丰富,无法简介
展开
-
实验三:CART回归决策树python实现(两个测试集)(二)|机器学习
目录python实现分步源代码(全部)测试集1(波士顿房价数据集)测试集2(糖尿病数据集)总结python实现分步划分数据子集(左子树划分比指定值小的样本集合,右子树划分比指定值大的样本集合)import numpy as np#获取数据子集,分类与回归的做法相同#将数据集根据划分特征切分为两类def split_dataset(data_x,data_y,fea_axis,fea_value): ''' input:data_x(ndarry):特征值原创 2021-11-21 19:00:00 · 2744 阅读 · 4 评论 -
实验三:CART分类决策树python实现(两个测试集)(一)|机器学习
目录python实现分步源代码(全部)测试集1(鸢尾花集)测试集2(红酒品类数据集)总结python实现分步划分数据子集(注意区分离散特征值和连续特征值)#获取数据子集,分类与回归的做法相同#将数据集根据划分特征切分为两类def split_dataset(data_x,data_y,fea_axis,fea_value): ''' input:data_x(ndarry):特征值 data_y(ndarry):标签值 fea_axi原创 2021-11-20 21:00:56 · 5000 阅读 · 2 评论 -
实验二:BP算法实践|机器学习
目录BP算法(分步)源代码(全部)测试数据集一(鸢尾花集)源代码(全部)测试数据集二(手写数字集)源代码(全部)实验内容:实现BP算法类,并使用两个数据集进行测试。BP算法(分步)BP算法主要由前向传递和后向传递两个部分构成。首先定义BPNetWork类:初始化函数init,生成四个基本变量(权重+偏置): '''初始化函数init''' def __init__(self,): ''' w1、w2分别为输入层到隐藏层、隐藏层到输出层的权重;b1原创 2021-11-09 08:00:00 · 1472 阅读 · 0 评论 -
支持向量机(SVM)|机器学习
1.SVM基本原理1.1特点∙\bullet∙ 支持向量机(Support Vector Machine)主要用于解决模式识别领域中的数据分类问题,属于有监督学习算法的一种。∙\bullet∙ 既可以做分类也可以做回归。∙\bullet∙ 适合于小样本集的场景。1.2线性二分类问题比如说对于线性二分类问题来说,我们就是要选择一条直线将两类点进行区分,但是观看下图我们会发现有无数条直线可以做到这一要求,那么我们的选择有什么要求呢?因为这些点都是训练集中的点,而我们最后是要将这一模型使用在测试集原创 2021-10-30 09:00:00 · 719 阅读 · 0 评论 -
ID3决策树算法|机器学习
1.ID3决策树原理1.1基本原理∙\bullet∙ 基本原理:ID3决策树算法使用信息增益来构建决策树,对于所有的属性我们先选择信息增益最大的作为根节点,然后计算其他属性的信息增益再选择最大的作为子节点,一直递归调用该操作,直到信息增益很小或者没有特征为止。∙\bullet∙ 根据搭建好的决策树我们带入测试数据的特征就会得到对应的输出结果,那么现在最重要的就是理解什么是信息增益以及如何求解信息增益。1.2信息熵∙\bullet∙ 在介绍信息增益之前,先引入信息熵的概念,信息熵是用来衡量样本纯度的原创 2021-10-10 19:41:28 · 4979 阅读 · 0 评论 -
逻辑回归|机器学习|分类算法
目录1.逻辑回归1.1逻辑回归原理1.2sigmoid函数2.相关代码2.1LogisticsRegression类2.2求解代码2.3输出结果1.逻辑回归1.1逻辑回归原理∙\bullet∙ 逻辑回归又叫对数几率回归,是一种对数几率模型,可以求解二分类问题。∙\bullet∙ 之前我们学习过线性回归模型,带入模型后每一个点都有一个对应的实数值,范围为整个实数域;但是由于逻辑回归是利用回归方法解决二分类问题,所以求得的结果只能有两个值,在这里我们使用概率来对这两类进行描述:y^={0p^<原创 2021-10-07 13:05:35 · 214 阅读 · 0 评论 -
岭回归模型|机器学习|回归算法
1.岭回归模型1.1背景对于回归问题来说,它们的基本内容基本上都是相同的,所以岭回归模型与线性回归模型类似:y=θ0x0+θ1x1+θ2x2+...θnxn{\color{Violet}y = θ_{0}x_{0}+θ_{1}x_{1}+θ_{2}x_{2}+...θ_{n}x_{n}}y=θ0x0+θ1x1+θ2x2+...θnxn它们的差别主要体现在损失函数的构造上。对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”。有些时候不正确原创 2021-09-19 16:26:15 · 5603 阅读 · 2 评论 -
线性回归模型|机器学习|回归算法
目录1.线性回归模型1.1 一元线性回归模型1.2多元线性回归模型1.3损失函数2.相关代码2.1LinearRegression类2.2求解代码2.3绘图代码1.线性回归模型1.1 一元线性回归模型简单的讲,一元线性模型就是指只有一个特征量,然后对应带有一个标签(结果)。一元线性回归模型一般如下:y=wx+b{\color{Violet}y = wx+b}y=wx+b其中 w{\color{Red}w}w 代表权重、b{\color{Red}b}b 代表偏移量、x{\color{Red}x}原创 2021-09-19 14:44:06 · 1253 阅读 · 0 评论 -
【机器学习基石】线性回归(九)
目录写在前面1. 线性回归问题2. 求解最小的 Ein(w)E_{in}(w)Ein(w) 对应的 www3. 泛化问题4. 与线性分类的对比写在前面本节主要接受啊了线性回归原理以及它的可行性,最后与前面学过的线性分类进行了对比分析。1. 线性回归问题∙\bullet∙ 引入:我们假设现在有些用户已经申请到了信用卡,但是银行决定给他们发放多少钱。此时返回的结果就是一个实数区间。∙\bullet∙ 实现:▹\triangleright▹ 现在我们有用户的信息,包括以下内容:年龄、年收入、工作原创 2021-08-16 14:54:15 · 136 阅读 · 0 评论 -
【机器学习基石】杂讯和错误(八)
目录写在前面1. 杂讯和概率目标2. 误差测定3. 算法误差测量4. 加权分类写在前面1. 杂讯和概率目标∙\bullet∙ 杂讯分为好几种情况,我们还是以银行根据客户信息,决定是否对其发放信用卡为例:♡\heartsuit♡ 发生在 yyy 上:本来是要给发放信用卡的客户,最后判定为不发放。♡\heartsuit♡ 发生在 yyy 上:相同的客户信息,但是由于标记的人不同,导致不同的结果。♡\heartsuit♡ 发生在 xxx 上:得到的是不准确的客户信息。那么在这些情况下 VC&nb原创 2021-08-15 21:56:53 · 247 阅读 · 0 评论 -
【机器学习基石】VC dimension(七)
目录写在前面1. VC dimension 的定义2.3.4.写在前面1. VC dimension 的定义∙\bullet∙ 首先我们对上一次的内容进行一下回顾。上一次我们证明了 B(N,k)B(N,k)B(N,k) 存在上限的上限为 Nk−1N^{k-1}Nk−1。根据下面具体的表格内容显示,我们发现当 N≥2,k≥3N≥2,k≥3N≥2,k≥3 时,完全可以写成(简化了等式):mH(N)≤Nk−1m_{H}(N)≤N^{k-1}mH(N)≤Nk−1那么上一次提到的公式也可以进行转换原创 2021-08-14 13:19:02 · 596 阅读 · 0 评论 -
【机器学习基石】泛化理论(六)
写在前面1. break point 的限制前面我们提到过成长函数 mH(N)m_{H}(N)mH(N),指得就是 NNN 个点最多的分类(dichotomy)(dichotomy)(dichotomy)。同时也引出了 break pointbreak \ pointbreak point 的概念,就是最多的区分的点的个数,当 break point=2break \ point=2break point=2 时,最多只能区分一个点。前面我们也讲过四种不同.原创 2021-08-10 12:51:23 · 338 阅读 · 0 评论 -
【机器学习基石】训练与测试(五)
目录写在前面1. 回顾和预览(Recap and Preview)2. 有效的线数(PLA中)3. 有效的假设数4. Break Point写在前面本节首先对前面的内容进行了回顾,然后提出两个核心问题,接着讨论了对hypothesis的分类,然后引出了成长函数和break point。本文整理自台湾大学林轩田的《机器学习基石》1. 回顾和预览(Recap and Preview)对于机器学习来说,当样本 MMM 足够多并且 HypothesisHypothesisHypothesis 个数有原创 2021-08-09 18:33:53 · 343 阅读 · 0 评论 -
【机器学习基石】机器学习的可行性(四)
目录写在前面1. 机器学习结果的多样性2. 霍夫丁不等式(Hoeffding's inequality)3. 将不等式与ML进行关联4. 其他补充内容写在前面本节主要介绍了机器学习结果的多样性,以及通过引入霍夫丁不等式迁移到机器学习中,通过增加假设使得机器学习结果变得准确,可行性更高。本文整理自台湾大学林轩田的《机器学习基石》1. 机器学习结果的多样性∙\bullet∙ 首先引入一个例子,我们看下面的六幅图片,每幅图片都是由 3×33×33×3 的网格组成,每个格子中被涂为黑色或者白色。现在按原创 2021-08-08 20:00:38 · 596 阅读 · 0 评论 -
【机器学习基石】机器学习的种类(三)
目录写在前面1. 不同的输出y(Out Space)2. 不同格式的标签(Data Label)3.不同的数据样本获取方式(Protocol)4. 不同的输入x(Input Space)写在前面主要讲了以下机器学习的不同分类标准,可以根据输出特征的不同、样本标签的不同、样本输入方式的不同以及输入特征的不同进行分类,这一节主要也是理解记忆的内容。1. 不同的输出y(Out Space)对于前面提到过的机器学习模型,我们知道它最终的输出就是 yyy,根据不同的输出格式 yyy,我们可以对ML进行分类原创 2021-08-07 15:46:32 · 326 阅读 · 0 评论 -
【机器学习基石】感知机模型+PLA(二)
目录写在前面1.感知机模型2.PLA算法3. PLA中的公式4.其它关于PLA的内容写在前面本节内容主要介绍了感知机模型,还提出了机器学习中的第一个算法PLA,最后对PLA进行了优化得出Packet Algorithm。公式性的推导比较多。本文整理自台湾大学林轩田的《机器学习基石》1.感知机模型∙\bullet∙ 引例:银行需要对客户进行判断是否可以给他们发放信用卡。现在收集客户资料,分别收集每个客户的年龄、年薪、工作年龄以及现在的负债。然后就这些因素下面我们使用感知机(Preceptron)原创 2021-08-06 23:03:09 · 569 阅读 · 0 评论 -
【机器学习基石】概述(一)
目录写在前面1.什么是机器学习2.ML在日常生活中的应用3.ML的简单组成4.ML与其他领域的联系写在前面本节内容主要是介绍什么是机器学习,以及机器学习在我们日常生活中的常见应用场景,它与我们的生活并不是分离开来互不影响的。最后引申了它与其他领域的一些关系,整体来说,本节内容较为简单。本文整理自台湾大学林轩田的《机器学习基石》1.什么是机器学习∙\bullet∙ 机器学习(Machine Learning,简称ML)就是提供给计算机大量的数据,让它分析这些数据得到一些联系并且学会自己处理数据(原创 2021-08-06 10:41:55 · 319 阅读 · 0 评论