蜡笔小潘和野原小白-CSDN博客

原创 WPS（excel）

1.秒开多表：ctrl+选择工作簿+回车2.切换表：ctrl+tab3.换行：alt+回车4.复制：ctrl+拖拉5.重复上一次动作：F46.删除：delete7.求和：①公式②alt+=8.插入表格：插入——表格——表格工具9.取消表格：设计——转换为区域10.选择单元格：①点击首个单元格+shift+点击末个单元格②ctrl+a11.回到头：ctrl+HM12.回到尾：ctrl+END13.回到最左（右上下）：ctrl+⬅（➡⬆⬇）14.连续框选：ctrl+shift+⬅（➡⬆

2020-10-12 09:45:14 440

原创常见分类算法

一、朴素贝叶斯算法（NBC）1.1 简介朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类算法，是应用最广泛的分类算法之一。该算法假定给定目标值时属性之间相互条件独立，即没有哪个属性变量对于决策结果占很大（很小）的比重，一定程度上降低了贝叶斯分类算法的分类效果，但在实际应用场景中，极大简化了贝叶斯方法的复杂性。1.2 算法原理设样本数据集D={d1,d2,d3,…dn}，样本数据的特征属性集X={x1.x2,…xd}，类变量Y={y1,y2,…ym}即D可以分为ym类别，其中x1.x2

2020-08-02 16:11:46 4432

原创随机森林算法（RF）和LightGBM

一、随机森林算法1.1 简介在集成学习中，主要分为套袋法（Bagging）和提升法（Boosting），其中，随机森林属于套袋（bagging）算法。1.2 Bagging（套袋法）Bagging的算法过程如下：1.对原始样本集中使用Bootstraping方法随机抽取n个训练样本，进行k轮抽取，得到k个训练集。（k个训练集之间相互独立，元素可以有重复）2.对于k个训练集，训练k个模型（根据具体问题而定，比如决策树，knn等）3.对于分类问题，由投票表决产生分类结果；对于回归问题：由k个模型预

2020-08-02 09:37:29 4402

原创大规模机器学习

大规模机器学习一、随机梯度下降法二、小批量梯度下降三、随机梯度下降收敛一、随机梯度下降法如果一定需要一个大规模的训练集，可以尝试使用随机梯度下降法来代替批量梯度下降法。在随机梯度下降法中，定义代价函数为一个单一训练实例的代价：随机梯度下降算法为：1.对训练集随机“洗牌”2.然后随机梯度下降算法在每一次计算之后就更新参数θ，不需要首先将所有的训练集求和，在梯度下降算法还没有完成第一次迭代时，随机梯度下降算法就已经走出了很远。存在的一个问题是，不是每一步都朝着“正确”的方向迈出。因此算法虽然

2020-07-28 12:25:15 207

原创推荐系统

推荐系统一、算法表示1.1 系统描述1.2 参数表示1.3 代价函数二、协同过滤2.1 代价函数2.2 协同过滤算法使用步骤三、均值归一化一、算法表示1.1 系统描述基于电影推荐，假设每部电影都有两个特征，如x1代表电影的浪漫成都，x2代表电影的动作程度，每部电影都有一个特征向量。1.2 参数表示构建推荐系统算法。采用线性回归模型，针对每一个用户训练一个线性回归模型。θ（ j ）：用户 j 的参数向量x（ i ）：电影 i 的特征向量(θj)Txi：用户 j 和电影i的预测评分1.3

2020-07-28 10:55:13 112

原创异常检测

异常检测一、动机二、高斯分布三、算法四、开发评价异常检测系统五、异常检测与监督学习5.1 异常检测5.2 监督学习六、选择特征误差分析一、动机给定数据集x（1），x（2），…，x（m），假使数据集正常，希望知道新的数据xtest是否正常，即这个测试数据不属于该组数据的几率如何。构建模型，根据该测试数据的位置得到属于一组数据的可能性p（x）。如图，蓝色圈内的数据属于该组数据的可能性较高，越偏远的数据，属于该组数据的可能性就越低。这种方法称为密度估计，表达如下：欺诈检测：X（i）=用户的第i个活

2020-07-27 11:17:34 178

原创降维

降维一、数据压缩1.1 降维1.2 数据压缩1.3 例二、数据可视化三、主成分分析问题3.1 主成分分析3.2 主成分分析与线性回归3.3 PCA四、主成分分析算法五、选择主成分的数量六、重建的压缩表示七、应用一、数据压缩1.1 降维当选用的特征存在高度冗余的情况下，可以将数据的维度进行减少。1.2 数据压缩降维的一个方法是数据压缩。数据压缩不仅可以压缩数据，使用较少的计算机内存或磁盘空间，同时也可以加快学习算法的运行速度。1.3 例二维降一维：三维降二维：可见，降维的一个重要方法是

2020-07-26 21:34:50 427

原创聚类（Clustering）

一、无监督学习1.1 无监督学习介绍监督学习：有一个有标签的训练集，目标是找到能够区分正样本和负样本的决策边界要据此拟合一个假设函数。非监督学习：数据没有附带任何标签。在非监督学习中，需要将一系列无标签的训练数据，输入到一个算法中，让算法帮助寻找数据的内在结构如图可以分为两个分开的点集（簇），一个能够找出这些点集的算法，称为聚类算法1.2 聚类算法的作用1.市场分割：数据库中存储了许多客户信息，希望将他们分成不同的客户群，对不同类型的客户分别销售产品，提供更适合的服务。2.社交网络分析：关注

2020-07-25 21:01:55 964

原创支持向量机（SVM）

支持向量机一、优化目标1.1 支持向量机1.2 建立支持向量机二、大边界的直观理解2.1 代价函数2.2 间距2.3 决策边界2.4 C的设置三、大边界分类3.1 内积3.2 支持向量机四、核函数4.1 对原有特征进行组合4.2 利用核函数计算新特征4.3 例4.4 选择地标4.5 支持向量机假设4.6 支持向量机参数C和σ的影响五、使用支持向量机5.1 步骤5.2 使用准则一、优化目标1.1 支持向量机支持向量机（Support Vector Machine），简称SVM，在学习复杂的非线性方程时

2020-07-25 16:02:29 3274

原创机器学习系统的设计

机器学习系统的设计一、垃圾邮件分类器二、构建学习算法方法三、类偏斜的误差度量四、查全率和查准率之间的权衡五、机器学习数据一、垃圾邮件分类器首先决定如何选择并表达特征向量x。选择一个由100个最常出现在垃圾邮件中的词所构成的列表，根据这些词是否出现在邮件中，获得特征向量（出现为1，不出现为0，尺寸为100×1）。为了构建这个分类器算法，可以采取以下操作：1.收集更多数据，拥有更多的垃圾邮件和非垃圾邮件样本2.基于邮件的路由信息开发一系列复杂的特征3.基于邮件的正文信息开发一系列复杂的特征，包括考

2020-07-23 21:34:46 300

原创模型选择（验证集、偏差/方差）

模型选择（验证集、偏差/方差）一、改进方法二、评估假设2.1 线性回归模型2.2 逻辑回归模型三、模型选择和交叉验证集3.1 交叉验证集3.2 模型选择四、诊断偏差和方差4.1 偏差和方差4.2 判别五、归一化和偏差/方差六、学习曲线6.1 学习曲线6.2 利用学习曲线识别高偏差/欠拟合6.3 利用学习曲线识别高方差/过拟合七、改进方法选择7.1 方法及适应情况7.2 神经网络的方差和偏差一、改进方法①获得更多训练实例②减少特征数量③获得更多特征④增加多项式特征⑤减少归一化程度λ⑥增加归一

2020-07-23 13:09:48 1085

原创神经网络基础

神经网络基础一、代价函数1.1 标记1.2 分类1.3 代价函数二、反向传播算法2.1 前向传播算法2.2 反向传播算法2.2.1 无归一化处理2.2.2 归一化处理三、反向传播算法直观理解3.1 前向传播算法3.2反向传播算法四、梯度的数值检验五、随机初始化六、神经网络使用步骤一、代价函数1.1 标记假设神经网络有m个训练样本，每个包含一组输入信号x和一组输出信号yL：神经网络层数S1：每层的神经元个数SL：输出层（最后一层）的神经元个数1.2 分类神经网络的分类定义为两种情况，二类分类和

2020-07-22 16:32:35 163

原创神经网络简述

神经网络一、非线性假设二、神经元和大脑三、模型表示3.1 简述3.2 模型3.2.1 分层3.2.2 标记3.2.3 激活单元3.2.4 输出3.2.5 前向传播算法3.3 向量化四、特征和直观理解4.1 逻辑与AND4.2 逻辑或OR4.3 逻辑非NOT4.3 复杂运算（XNOR功能）五、多类分类一、非线性假设无论是线性回归还是逻辑回归都有一个缺点：当特征太多时，计算的负荷会很大，此时适合选用神经网络处理问题。二、神经元和大脑如果人体有同一块脑组织可以处理光，声或触觉信号，那么也许存在一种学习算法

2020-07-21 12:43:02 368

原创正则化（Regularization）

正则化（Regularization）一、过度拟合问题1.1 回归问题1.2 分类问题1.3 处理二、代价函数2.1 假设提出2.2 λ的选择三、正则化线性回归3.1 正则化线性回归代价函数3.2 梯度下降算法3.3 正规方程求解正则化线性回归模型四、正则化逻辑回归4.1 正则化逻辑回归代价函数4.2 梯度下降算法一、过度拟合问题现象描述：假设有很多特征，通过学习得到的假设可以很好的适应训练集（代价函数几乎为0），但是可能会不能推广到新的数据。1.1 回归问题①第一个模型：线性模型，欠拟合，不能很

2020-07-20 16:45:36 465

原创逻辑回归（Logistic Regression）

逻辑回归（Logistic Regression）一、分类问题1.1 举例（二元）1.2逻辑回归算法二、假说表示2.1 线性模型2.2 逻辑回归三、判定边界3.1 模型3.2 举例四、代价函数4.1 定义4.2 Cost化简带入4.3 梯度下降五、简化的成本函数和梯度下降重述六、多类别分类一、分类问题1.1 举例（二元）①判断一封电子邮件是否是垃圾邮件②判断一次金融交易是否是欺诈③判断一个肿瘤是恶性的还是良性的1.2逻辑回归算法将所有训练样本的标签y都等于0或1二、假说表示2.1 线性模型

2020-07-20 12:52:10 367

原创利用Python对Octave的初步实现

利用Python对Octave的初步实现一、基本操作1.1 逻辑运算1.2 矩阵运算（numpy）1.2.1 导入库函数1.2.2 赋值1.2.3 提取元素1.3 其他二、移动数据2.1 size的用法2.2 文件读入及路径三、计算数据3.1 通用计算3.2 重点计算四、绘图数据4.1 绘制函数4.2 添加标签4.3 多图展示4.4 改变坐标轴4.5 热力图五、代价函数5.1 问题5.2 公式5.3 代码5.4分析六、向量化一、基本操作1.1 逻辑运算1.相等（== ，！=）2.逻辑与（ &amp

2020-07-19 18:56:55 988

weixin_45242264的博客