YJF-NJU-CSDN博客

原创 2022-2-22第四章机器学习进阶EM算法

基础知识Jensen不等式最重要是红框中的结论EM算法解决的问题GMM参数估计第一步：第二步：按公式求各类参数，然后不断迭代EM算法提出Z是为观测数据，但是想要计算出z值提出似然函数引入函数r作为辅助变函数证明i取任意一个值不等式恒成立；Q作为z的某一个分布；Log（E(X)）>= E(logx)—jensen不等式取定值才有使上式相等的可能给定一个z可以得到一个P—两者相关但不相等，那么在全z取完相加，可以得到一个条件概率EM算法最终过程沿坐

2022-02-22 16:59:20 531

原创 2022-2-21第四章机器学习进阶--聚类实践

层次聚类法层次聚类包括两种算法：AGNES凝聚（从疏到稀）、DIANA算法（从稀到疏）密度聚类DBSCAN—领域，核心对象，直接密度可达，密度可达，密度相连，簇，噪声聚类方法：高局部密度点距离：例：一般通过两个参数判断离群点和簇中心谱聚类3种方法Seigma调参、K值调参标签传递算法例：图像聚类，颜色聚类num_vq聚类数、采用k-means聚类聚类中心0，n之间选1000个...

2022-02-21 11:09:59 464

原创 2022-2-18第四章机器学习进阶--聚类

聚类的本质聚类：实质上就是将一组多类数据，分成固定类别的方法，考虑到不同维度空间，之际就是数据的降维主要内容相似度样本点到目标的距离其实是等级于样本点于此目标类别的相似度（不同的相似度计算方法适用于不同场景）K-means步骤：①指定初始类别，分别计算各样本到类别中心距离，取最小值距离作为此样本类别②统计每个类别的样本均值，将次均值作为新的类别中心，不断迭代③通过指定的迭代次数、簇中心变化率、最小平方误差作为判断循环终止的标准存在问题：异常值、初值选择一般采用方法：①异常值：

2022-02-18 16:37:48 512

原创 2022-2-17第四章机器学习进阶SVM实践

带核函数的SVM实质：其实就是避免只能进行线性分割，通过核函数，将特征映射到高维空间中，以此选择出合适的超平面进行分割一般选择核函数：常用rbf-高斯核函数，但是需要调C和γ两个参数（交叉验证、网格搜索）C项：错误项的惩罚系数。C越大，即对分错样本的惩罚程度越大，因此在训练样本中准确率越高，但是泛化能力降低，也就是对测试数据的分类准确率降低。相反，减小C的话，容许训练样本中有一些误分类错误样本，泛化能力强。对于训练样本带有噪声的情况，一般采用后者，把训练样本集中错误分类的样本作为噪声γ项：高斯分

2022-02-17 16:54:37 462

原创 2022-2-16第四章机器学习进阶支持向量机SVM

简介支持向量机原理和目标①各类概念（1）线性可分支持向量机（硬间隔最大化、硬间隔支持向量机）点到分类线的距离相等—不可能有样本落在分割面上（2）线性支持向量机（软间隔最大化、软间隔支持向量机）点到分类线的距离不一定相等，有一定的范围（3）非线性支持向量机—加入核函数支撑向量：边界上的几个向量，其他向量并不影响分类点到直线的问题在n维情况下都可以求，就是带入直线方程，然后除以w的二范式如果是正值，则在分界线上方（法向正方向）W就是法向量SVM：离样本的最近距离取最大目标函数–要满

2022-02-16 21:04:08 542

原创 2022-2-15第四章机器学习进阶--XGboost

XGboost例1 agaricus_test(稀疏数据集的特殊存储方式)，01矩阵通过只表示1的位置①读取数据②参数设置（二分类）Param-树的深度、eta—防止模型学习太快-衰减因子<1、silent—Watchlist监控模型学习何时停止,evals-训练期间将评估指标的验证集列表，验证列表会帮助我们跟踪模型性能N_round—决策树数量Data_train-包含x和y，obj定义一个目标函数写入公式，③计算错误率例2：鸢尾花①数据读取②参数设定（三分类soft

2022-02-15 15:15:25 324

原创 2022-2-13第四章机器学习进阶--提升boost

主要内容随机森林决策树的问题是否可以施加一定权重，让随机森林中决策树之间能有一定的有益影响；摈弃原来仅有的随机过程解决方法：提升—对于弱分类器才用提升—弱分类器就是分类效果较差提升算法（选择负梯度方向的基函数来逼近损失函数最小值）更新提升算法的方式学习率一般采用–自适应学习率算法例子–XGboost①考虑二阶导信息—XGBoost；相较于GBDT有更快的训练集收敛效率，确定权值及目标值计算这里的权值，就是决策树的预测值正则项用于处理模型的复杂度带入简化二阶导的目标函数最终可

2022-02-13 14:59:58 332

原创 2022-2-12第四章机器学习算法进阶决策树与随机森林实践

决策树过拟合（对未知数据未必有很好的拟合能力）处理方法：剪枝、随机森林随机森林做n棵树，解决过拟合问题，从理论上讲，数量大了，过拟合概率本身较低平均下来，就不用考虑过拟合的问题（方法：Boostraping\Bagging）Boostraping—通过本身数据集提高自身Bagging—一般推荐结合决策树这种若分类器来进行分类特点：随机选中的样本可能会出现有些样本很少被选中—OOB数据样本不均问题990个样本、10个有噪声的样本①欠采样对于不均匀的样本，反复重采样可能会多次采到同一类

2022-02-12 14:07:41 258

原创 2022-2-5第四章机器学习进阶决策树

决策树定义叶子节点是分类（离散值）或是回归（阈值）的结果熵条件熵的推导（连续数据的熵不一定大于等于0）相对熵两个概率分布可以看作一个是样本本身概率分布px、一个是预测值的概率分布qxD的值越小，表示q分布和p分布越接近，预测效果越好，如果越大，则说明预测误差越大；期望在这里只是一个乘数并没有太大的作用互信息—KL散度的定义式—就是交集（如果独立，互信息为0；如果不为0，互信息大于0）决策树建立一个从根节点到叶子节点，信息熵快速不断下降的过程自顶向下的递归方法、构造一棵熵值下降

2022-02-05 11:39:35 801

原创 2022-2-3第四章机器学习进阶回归实践

Logistic回归：解决分类问题基本方程不同的回归都假定了样本的分布，得到的结果也会是这个回归模型softmax回归–多分类问题AUC面积作为预测好坏的判据(曲线下面积最少是0.5，最大是1，小于0.5没意义)ROC曲线下面积为AUC回归实践取对数可以较好的过滤掉数据中的噪音各个特征值可以设置权重，如何处理权重模型复杂倾向于做LASSO、模型简单倾向于做岭回归—解决过拟合—正则项自回归模型—AR模型...

2022-02-03 10:24:22 635

原创 2022-1-29第四章机器学习进阶--回归

线性回归极大似然估计例子：房价预测(误差符合高斯分布—均值为0，方差为某定值)对数化（J其实就是目标函数）（目标函数要最小—梯度为0—驻点）(为何不可逆或防止过拟合可以增加扰动)概念：给定k个点，一定存在k-1次项方程式，通过这个K个点线性回归：出现过拟合（正则项：避免参数过大造成的过拟合）：L2正则化—岭回归（加了L2正则项的最小二乘估计）–施加给损失函数的惩罚项（L1有特征选择功能，L2没有）最后正则出来的系数结果，越高阶的项系数越小，尤其是LASSO算法，他就是对特

2022-01-29 11:11:01 940

原创 2022-1-27第四章机器学习进阶

贝叶斯与最大似然估计最大似然其实就是，从总体采出多个样本，其中每个样本有一个参数，求当参数为多少时，事件的概率最大，实质；求驻点问题一般似然函数都会对数化，因为会遇到连乘这样的操作，对数化方便化简①二项分布的最大似然估计②正态分布的最大似然估计（两个参数）–方差、均值（取对数）(对两个参数分别求偏导)得出参数所表示的意思思考：最大似然估计与过拟合（大量的样本数量是否会引起过拟合）(修正：拉普拉斯平滑项；避免偶然性)数据清洗、特征选择①赔率—赔率是概率的倒数②Fuzzywuz

2022-01-27 17:50:26 850

原创 2022-1-26第三章机器学习基础--逻辑回归、聚类

模型的保存与加载训练好的数据集如何保存API:逻辑回归–分类算法（回归转分类）–只适用解决二分类问题输入：线性回归公式特点：不仅能分类，还能得出概率值核心部分：sigmoid函数—将值映射为0-1之间的值（概率）如何定义损失函数：（信息熵也是log（概率值））①预测概率值为1时：②预测概率值为0时：所有损失值加在一起就是总损失函数，通过总损失衡量整体结果优化：梯度下降更新线性回归输入的权重(对数似然损失存在多个局部最小值，目前无法解决)，均方误差只有一个最小值

2022-01-26 17:49:38 538

原创 2022-1-22第三章机器学习基础-回归算法

线性回归回归问题判定：目标值为连续性的值例子:销售额预测、贷款额度预测、线性关系：二维—直线关系三维：特征值，目标值，平面中矩阵运算：np.dot(a,b)多变量条件下：真实值与预测值的误差回归算法基本都是迭代算法，迭代更新参数误差的表征：损失函数求解最优化权重的方法：①正规方程—一次性求解（不通用—求解太复杂）②梯度下降后面算法基本都是通过梯度下降不断迭代进行优化—算法自我学习的过程正规方程-梯度下降对比API:#仍然需要标准化-标准化后在得到预测结

2022-01-22 17:02:37 703

原创 2022-1-17第三章机器学习基础--网格搜索超参数优化、决策树、随机森林

交叉验证与网格搜索①交叉验证（训练集划分—训练集、验证集）–将所有数据分成n等分—并不具备调参能力4等分就是4折交叉验证；一般采用10折交叉验证②网格搜索—调参数（与交叉验证一同使用）如果有多个超参数：采用排列组合的方式，组合进行调参—穷举法估计器就是算法param中有多少个超参数需要调整就输入多少个字典决策树基础知识：信息论通信的数学原理，奠定了现代信息论的基础；信息的单位：比特在不知道哪个球队夺冠概率大（即所有球队夺冠概率相等的情况下），获取冠军需要的代价是5比特信息熵

2022-01-17 13:23:13 1595

原创 2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

sklearn数据集①sklearn数据集load_* 小数据集fetch_* 大数据集②数据集划分：训练集—建立模型：测试集—评估模型=7.5：2.5API:默认乱序：三个参数：特征值（二维数组：样本*特征值）、目标值（一维数组：标准值）、测试集占比返回值：4个返回值（固定位置）转换器、预估器①转换器不要重复fit，会改变transform标准②预估器（predict预测结果，score计算准确率）所有的算法都带有fit、predict、score这三个算法K

2022-01-16 16:03:43 1201

原创 2022-1-14第三章机器学习基础--数据降维、机器学习算法分类、算法开发流程

特征预处理–数据降维维度：特征的类别数量常用方法：①特征选择②主成分分析①特征选择定义：单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值，也可以不改变值，但是选择后的特征维度肯定比之前小，因为只选择了其中一部分特征三大方法：Filter（过滤式）：VarianceThreshold（Variance：方差）Embedded（嵌入式）：正则化、决策树Wrapper（包裹式）–基本不使用API:只介绍Filter过滤式指定方差大小，删除低方差的特征值（因

2022-01-14 15:10:21 335

原创 2022-1-13第三章机器学习基础-基本概念-特征工程（特征抽取）-特征值预处理（标准化）

基本概念机器学习应用三方面：①图像识别、自然语言处理、传统预测应用工具框架：SKlearn（机器学习）、

2022-01-13 16:38:05 371

原创 2022-1-11第二章数据分析实战2

用户数据分析数据预处理读取数据（修改数据间隔sep=\s+,修改数据列名names）按月数据进行分析groupby函数的使用，df.plot()可以直接画图用户个体消费数据分析query函数的使用条件查询，作用于df，最后得到的还是df**用户消费行为分析**value_counts()函数，计算series中各类元素的数量agg（[func1,func2]）函数，支持多种不同形式的聚合运算，将series进行多种运算，返回两列透视表：df.pivot_table(index=

2022-01-11 20:13:18 817

原创 2022-1-11第二章数据分析实战1

人口案例分析导入文件数据集合并-根据共有元素核对数据是否有缺失值–两种方法去重–unique（）**将数据集中的空值补上正确的值（不同空值所补值不同）**query（）函数排序–对指定索引排序政治献金数据处理–数据读取–是否缺失–统计学概要describe（）–空值填充–异常值处理新建候选人所在党派①建立字典–作为映射基础②使用map函数做映射–map函数③统计每个党派出现的次数–value_counts()–计算传入参数中各种元素的个数④收到政治献金总额计

2022-01-11 19:50:36 250

原创 2022-1-9第二章数据分析股票分析

数据预处理将date的字符串序列转变为时间序列注意：①drop函数使用时axis=1表示列方向、axis=0表示行方向，转置②set_index的用法数据基础操作注意：①loc提出的是True的行数据②index提出索引值计算收益注意：resample的用法，必须是时间序列才可以用“M”来代替月，是一个对常规时间序列数据重新采样和频率转换的便捷的方法。均线绘制注意：①rolling（n）函数的使用–按序列顺序一次取出n个单位金叉、死叉计算通过金叉和死叉的特点，对序列进行逻辑运算

2022-01-09 13:34:59 225

原创 2022-1-8第一章数学基础--优化方法

优化问题我们要寻找最小损失函数时的模型参数一般研究对象：①损失函数（L2、LP、huber、hinge、cross-entropy（分布的差·）、）②优化方法③约束、非约束问题最速下降法基于梯度的一阶方法，针对某一个点选定的梯度方向，选择合适的步长进行下降也就是机器学习中最常用的梯度下降法：随机梯度下降：避免停在某个极值共轭梯度法梯度下降法，只关心此次的变更，不会考虑全局效率；（不同方向的权重（步长）决定最终方向）不会损失上一次的努力牛顿法二阶方法：更快更准但是计算量大（Hess

2022-01-08 15:16:42 454

原创 2022-1-7第一张数学基础概率论与统计

随机变量离散分布：连续分布概率密度函数PDF多随机变量：①如何判别独立性：联合分布：xy-iid（独立同分布identity-identical-diversity）常见概率分布：①伯努利分布—二项分布②泊松分布（无穷次实验，成功的概率趋近于0，n次实验成功的概率为λ）当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。通常当n≧20,p≦0.05时，就可以用泊松公式近似得计算。③正态分布（normal）连续分布可取正负贝叶斯定理x\y不独立—

2022-01-08 14:00:16 526

原创【无标题】2022-1-3第一章数学基础线性代数

向量、矩阵、张量张量（多个矩阵叠在一起，多个张量叠在一起）比矩阵高阶，向量、矩阵的运算加法、减法：范数、距离、长度：张量的运算是在另一个方向进行相乘，不会再扩充原始矩阵的大小，只是为了简化计算矩阵的逆和伪逆行列式行列式在数学中，是一个函数，其定义域为det的矩阵A，取值为一个标量，写作det(A)或 | A | 。无论是在线性代数、多项式理论，还是在微积分学中（比如说换元积分法中），行列式作为基本的数学工具，都有着重要的应用行列式的性质线性方程组形式：矩阵乘法的变

2022-01-03 22:20:49 388

原创 2022-1-2第一章数学基础微分下

多元函数变量是多维空间的一组向量极值判定：偏导数偏导数仅在一个维度上变化，剩下维度上都不变较为基础的性质，注意偏导数是否存在（左右都满足）方向导数任意方向均存在方向导数，是指定点的方向，有方向导数不一定有偏导数可微在x0处连续、且任意方向偏导存在偏导存在，且在每一个方向都连续可以推出可微梯度一个函数在某一个点的梯度（一个向量），表示了在所有方向的方向导数，–对应的是一元函数的导数链式法则基本定义：多元函数全微分：Hessian矩阵多元函数Hessian矩阵的形

2022-01-02 20:28:00 470

原创 2022-1-2第一章数学基础-微分上

阶数O（n）：f(x)=O(g(x))—存在X0、M，使得当X>=X0时，f(x)=<Mg(x) 较宽松o(n): 任意M，存在X0，当X>=X0时，有f(x)=<Mg(x) 更严格极限导数基本形式程序实现（符号实现、与取值无关的计算）费马定理区间内极值点的导数一定为0（不能反推）函数逼近罗尔中值定理：f(x0)=f(x1)=0,则存在x2，f’(x2)=0拉格朗日中值定理：在区间（a,b）中存在一点c，使得f(b)-f(a)=f’©(b-a)—

2022-01-02 11:48:08 476

weixin_45526009的博客