MLgroup
文章平均质量分 86
机器学习小组日常学习内容笔记
Zee_Chao
to be slim, to be smart
展开
-
第十周:支持向量机(SVM)
1.学习内容1.了解SVM的原理2.实现SVM3.认识核函数4.如何用SVM解决线性回归问题2.什么是SVM要了解什么是SVM,还需要从分类问题中的决策边界不适定问题讲起。我们都知道,一个二分类的模型其决策边界可视化后可以是一个低维度平面或者直线。但是,可以将正样本和负样本完美分隔开的低维平面有很多个,假如每一个平面都对应一个模型,那么我们要如何从中选择最好的那...原创 2020-05-02 22:55:05 · 420 阅读 · 0 评论 -
第九周:主成分分析(PCA)算法
1.学习内容1.了解PCA算法的思想及原理2.了解PCA算法的实现及应用2. PCA算法介绍PCA即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法)。其最主要的用途在于“降维”,即通过析取主成分显出的最大的个别差异,发现更便于人类理解的特征。也可以用来削减回归分析和聚类分析中变量的数目[1]。很多时候我们要用到的数据会具有非常多的特征。数据的特征越多...原创 2020-04-26 23:30:01 · 764 阅读 · 0 评论 -
第八周:决策树模型
1.学习内容1.决策树的概念及核心思想2.决策树的学习过程3.如何选择特征进行划分4.利用ID3和C4.5来构建决策树5.用sklearn实现决策树6.分类与回归树CART2. 决策树的基本概念2.1什么是决策树如果你对流程图比较了解的话,那么决策树就相当于是一个只含有“开始”、“结束”和“判断”的树状流程图。决策树是一个非常有意思的模型,它的建...原创 2020-04-19 23:20:11 · 1042 阅读 · 0 评论 -
第七周:逻辑回归模型
目录1.学习内容2.用逻辑回归解决分类问题2.1为什么不能用线性回归解决分类问题2.2什么是逻辑回归3.逻辑回归的目标函数3.1从线性回归到逻辑回归3.2从极大似然到逻辑回归4.利用梯度下降法求解参数5.逻辑回归的实现及应用6.逻辑回归的决策边界及多项式7.逻辑回归的正则化8.参考文献1.学习内容1. 逻辑回归本质及...原创 2020-04-12 22:27:47 · 835 阅读 · 0 评论 -
第六周:机器学习理论与实践的补充
目录1. 学习内容2. 多项式回归2.1 什么是多项式回归2.2 一元多项式回归的实现2.2.1 手动实现2.2.2 调用sklearn中的相关模块2.3 多元多项式回归的实现3. sklearn中的pipeline4. 偏差与方差4.1 什么是偏差和方差4.2 偏差与方差产生的原因4.3 如何权避免高偏差和高方差5. L1正则与L2正则5....原创 2020-04-05 22:55:02 · 447 阅读 · 1 评论 -
第五周:梯度下降
1. 学习目标1. 实现梯度下降及其在线性回归中的应用2. 实现随机梯度下降2. 梯度下降法2.1 最优化目标函数时遇到的问题与梯度下降算法如果我们把机器学习算法看做一个函数的集合,那么我们需要根据定义好的某项衡量标准来从中找出最好的那个函数。例如,在第二周我们学习了如何衡量一个模型的好坏即衡量标准;第四周我们通过最小二乘法找到了线性回归模型的目标函数的最优参数从而确定了最好的...原创 2020-03-29 15:35:10 · 529 阅读 · 0 评论 -
第四周:线性回归模型
目录1. 学习目标2. 简单线性回归与最小二乘法2.1 什么是简单线性回归2.2 如何找到最佳的直线2.3 千奇百怪的单样本损失函数2.3.1 0-1损失函数2.3.2 平方损失函数2.3.3 绝对损失函数2.3.4 对数损失函数2.4 侧重不同的多样本风险函数2.4.1 期望风险2.4.2 经验风险2.4.3 结构风险2.5 最小二乘法...原创 2020-03-20 16:03:53 · 588 阅读 · 0 评论 -
第三周:简单的数据预处理和特征工程
1. 学习目标1. 无量纲化:最值归一化,均值方差标准化,sklearn中的preprocessing2. 缺失值处理3. 处理分类型特征:编码与哑变量4. 处理连续型特征:二值化与分段2. 无量纲化2.1 为什么要做无量纲化不同的特征可能会有不同的计量单位,这些有单位的特征在计算距离或者相似度的时候会对结果造成不良影响。例如:在两个样本中肿瘤大小的分别为1cm和5cm...原创 2020-03-14 13:39:42 · 1060 阅读 · 0 评论 -
第二周:如何评价模型的好坏
1. 学习目标1. 数据拆分:训练数据集和测试数据集2. 评价分类结果:精准度、混淆矩阵、精准率、召回率、F1_score、ROC曲线等3. 评价回归结果:MSE、RMSE、MAE和R_squared2. 数据拆分2.1 数据拆分介绍原始数据需要拆分成两部分:训练数据和测试数据。前者用于训练模型,后者用于检验模型效果。如果数据是随机排列的,那么可以按照一定的比例将原数据...原创 2020-03-05 20:23:45 · 1599 阅读 · 0 评论 -
第一周:用代码打开AI的大门
目录1. 学习内容1. 学习目标1. 了解KNN算法的思想及原理2. 用Python手动实现KNN算法并在sklearn中调用封装好的KNN算法3. 了解监督学习和无监督学习的概念2. KNN算法KNN算法的核心思想就是:样本可以用离他最距离近的k个邻居样本来代表。因此,该算法主要用于解决分类问题。一个生动的实例见[3]。KNN之所以被称作“敲门砖”,主要原因在于它...原创 2020-02-28 22:56:52 · 277 阅读 · 1 评论