自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 WPS(excel)

1.秒开多表:ctrl+选择工作簿+回车2.切换表:ctrl+tab3.换行:alt+回车4.复制:ctrl+拖拉5.重复上一次动作:F46.删除:delete7.求和:①公式②alt+=8.插入表格:插入——表格——表格工具9.取消表格:设计——转换为区域10.选择单元格:①点击首个单元格+shift+点击末个单元格②ctrl+a11.回到头:ctrl+HM12.回到尾:ctrl+END13.回到最左(右上下):ctrl+⬅(➡⬆⬇)14.连续框选:ctrl+shift+⬅(➡⬆

2020-10-12 09:45:14 379

原创 常见分类算法

一、朴素贝叶斯算法(NBC)1.1 简介朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类算法,是应用最广泛的分类算法之一。该算法假定给定目标值时属性之间相互条件独立,即没有哪个属性变量对于决策结果占很大(很小)的比重,一定程度上降低了贝叶斯分类算法的分类效果,但在实际应用场景中,极大简化了贝叶斯方法的复杂性。1.2 算法原理设样本数据集D={d1,d2,d3,…dn},样本数据的特征属性集X={x1.x2,…xd},类变量Y={y1,y2,…ym}即D可以分为ym类别,其中x1.x2

2020-08-02 16:11:46 4160

原创 随机森林算法(RF)和LightGBM

一、随机森林算法1.1 简介在集成学习中,主要分为套袋法(Bagging)和提升法(Boosting),其中,随机森林属于套袋(bagging)算法。1.2 Bagging(套袋法)Bagging的算法过程如下:1.对原始样本集中使用Bootstraping方法随机抽取n个训练样本,进行k轮抽取,得到k个训练集。(k个训练集之间相互独立,元素可以有重复)2.对于k个训练集,训练k个模型(根据具体问题而定,比如决策树,knn等)3.对于分类问题,由投票表决产生分类结果;对于回归问题:由k个模型预

2020-08-02 09:37:29 3995

原创 大规模机器学习

大规模机器学习一、随机梯度下降法二、小批量梯度下降三、随机梯度下降收敛一、随机梯度下降法如果一定需要一个大规模的训练集,可以尝试使用随机梯度下降法来代替批量梯度下降法。在随机梯度下降法中,定义代价函数为一个单一训练实例的代价:随机梯度下降算法为:1.对训练集随机“洗牌”2.然后随机梯度下降算法在每一次计算之后就更新参数θ,不需要首先将所有的训练集求和,在梯度下降算法还没有完成第一次迭代时,随机梯度下降算法就已经走出了很远。存在的一个问题是,不是每一步都朝着“正确”的方向迈出。因此算法虽然

2020-07-28 12:25:15 168

原创 推荐系统

推荐系统一、算法表示1.1 系统描述1.2 参数表示1.3 代价函数二、协同过滤2.1 代价函数2.2 协同过滤算法使用步骤三、均值归一化一、算法表示1.1 系统描述基于电影推荐,假设每部电影都有两个特征,如x1代表电影的浪漫成都,x2代表电影的动作程度,每部电影都有一个特征向量。1.2 参数表示构建推荐系统算法。采用线性回归模型,针对每一个用户训练一个线性回归模型。θ( j ):用户 j 的参数向量x( i ):电影 i 的特征向量(θj)Txi:用户 j 和电影i的预测评分1.3

2020-07-28 10:55:13 80

原创 异常检测

异常检测一、动机二、高斯分布三、算法四、开发评价异常检测系统五、异常检测与监督学习5.1 异常检测5.2 监督学习六、选择特征误差分析一、动机给定数据集x(1),x(2),…,x(m),假使数据集正常,希望知道新的数据xtest是否正常,即这个测试数据不属于该组数据的几率如何。构建模型,根据该测试数据的位置得到属于一组数据的可能性p(x)。如图,蓝色圈内的数据属于该组数据的可能性较高,越偏远的数据,属于该组数据的可能性就越低。这种方法称为密度估计,表达如下:欺诈检测:X(i)=用户的第i个活

2020-07-27 11:17:34 133

原创 降维

降维一、数据压缩1.1 降维1.2 数据压缩1.3 例二、数据可视化三、主成分分析问题3.1 主成分分析3.2 主成分分析与线性回归3.3 PCA四、主成分分析算法五、选择主成分的数量六、重建的压缩表示七、应用一、数据压缩1.1 降维当选用的特征存在高度冗余的情况下,可以将数据的维度进行减少。1.2 数据压缩降维的一个方法是数据压缩。数据压缩不仅可以压缩数据,使用较少的计算机内存或磁盘空间,同时也可以加快学习算法的运行速度。1.3 例二维降一维:三维降二维:可见,降维的一个重要方法是

2020-07-26 21:34:50 288

原创 聚类(Clustering)

一、无监督学习1.1 无监督学习介绍监督学习:有一个有标签的训练集,目标是找到能够区分正样本和负样本的决策边界要据此拟合一个假设函数。非监督学习:数据没有附带任何标签。在非监督学习中,需要将一系列无标签的训练数据,输入到一个算法中,让算法帮助寻找数据的内在结构如图可以分为两个分开的点集(簇),一个能够找出这些点集的算法,称为聚类算法1.2 聚类算法的作用1.市场分割:数据库中存储了许多客户信息,希望将他们分成不同的客户群,对不同类型的客户分别销售产品,提供更适合的服务。2.社交网络分析:关注

2020-07-25 21:01:55 877

原创 支持向量机(SVM)

支持向量机一、优化目标1.1 支持向量机1.2 建立支持向量机二、大边界的直观理解2.1 代价函数2.2 间距2.3 决策边界2.4 C的设置三、大边界分类3.1 内积3.2 支持向量机四、核函数4.1 对原有特征进行组合4.2 利用核函数计算新特征4.3 例4.4 选择地标4.5 支持向量机假设4.6 支持向量机参数C和σ的影响五、使用支持向量机5.1 步骤5.2 使用准则一、优化目标1.1 支持向量机支持向量机(Support Vector Machine),简称SVM,在学习复杂的非线性方程时

2020-07-25 16:02:29 2803

原创 机器学习系统的设计

机器学习系统的设计一、垃圾邮件分类器二、构建学习算法方法三、类偏斜的误差度量四、查全率和查准率之间的权衡五、机器学习数据一、垃圾邮件分类器首先决定如何选择并表达特征向量x。选择一个由100个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否出现在邮件中,获得特征向量(出现为1,不出现为0,尺寸为100×1)。为了构建这个分类器算法,可以采取以下操作:1.收集更多数据,拥有更多的垃圾邮件和非垃圾邮件样本2.基于邮件的路由信息开发一系列复杂的特征3.基于邮件的正文信息开发一系列复杂的特征,包括考

2020-07-23 21:34:46 177

原创 模型选择(验证集、偏差/方差)

模型选择(验证集、偏差/方差)一、改进方法二、评估假设2.1 线性回归模型2.2 逻辑回归模型三、模型选择和交叉验证集3.1 交叉验证集3.2 模型选择四、诊断偏差和方差4.1 偏差和方差4.2 判别五、归一化和偏差/方差六、学习曲线6.1 学习曲线6.2 利用学习曲线识别高偏差/欠拟合6.3 利用学习曲线识别高方差/过拟合七、改进方法选择7.1 方法及适应情况7.2 神经网络的方差和偏差一、改进方法①获得更多训练实例②减少特征数量③获得更多特征④增加多项式特征⑤减少归一化程度λ⑥增加归一

2020-07-23 13:09:48 745

原创 神经网络基础

神经网络基础一、代价函数1.1 标记1.2 分类1.3 代价函数二、反向传播算法2.1 前向传播算法2.2 反向传播算法2.2.1 无归一化处理2.2.2 归一化处理三、反向传播算法直观理解3.1 前向传播算法3.2反向传播算法四、梯度的数值检验五、随机初始化六、神经网络使用步骤一、代价函数1.1 标记假设神经网络有m个训练样本,每个包含一组输入信号x和一组输出信号yL:神经网络层数S1:每层的神经元个数SL:输出层(最后一层)的神经元个数1.2 分类神经网络的分类定义为两种情况,二类分类和

2020-07-22 16:32:35 136

原创 神经网络简述

神经网络一、非线性假设二、神经元和大脑三、模型表示3.1 简述3.2 模型3.2.1 分层3.2.2 标记3.2.3 激活单元3.2.4 输出3.2.5 前向传播算法3.3 向量化四、特征和直观理解4.1 逻辑与AND4.2 逻辑或OR4.3 逻辑非NOT4.3 复杂运算(XNOR功能)五、多类分类一、非线性假设无论是线性回归还是逻辑回归都有一个缺点:当特征太多时,计算的负荷会很大,此时适合选用神经网络处理问题。二、神经元和大脑如果人体有同一块脑组织可以处理光,声或触觉信号,那么也许存在一种学习算法

2020-07-21 12:43:02 279

原创 正则化(Regularization)

正则化(Regularization)一、过度拟合问题1.1 回归问题1.2 分类问题1.3 处理二、代价函数2.1 假设提出2.2 λ的选择三、正则化线性回归3.1 正则化线性回归代价函数3.2 梯度下降算法3.3 正规方程求解正则化线性回归模型四、正则化逻辑回归4.1 正则化逻辑回归代价函数4.2 梯度下降算法一、过度拟合问题现象描述:假设有很多特征,通过学习得到的假设可以很好的适应训练集(代价函数几乎为0),但是可能会不能推广到新的数据。1.1 回归问题①第一个模型:线性模型,欠拟合,不能很

2020-07-20 16:45:36 319

原创 逻辑回归(Logistic Regression)

逻辑回归(Logistic Regression)一、分类问题1.1 举例(二元)1.2逻辑回归算法二、假说表示2.1 线性模型2.2 逻辑回归三、判定边界3.1 模型3.2 举例四、代价函数4.1 定义4.2 Cost化简带入4.3 梯度下降五、简化的成本函数和梯度下降重述六、多类别分类一、分类问题1.1 举例(二元)①判断一封电子邮件是否是垃圾邮件②判断一次金融交易是否是欺诈③判断一个肿瘤是恶性的还是良性的1.2逻辑回归算法将所有训练样本的标签y都等于0或1二、假说表示2.1 线性模型

2020-07-20 12:52:10 207

原创 利用Python对Octave的初步实现

利用Python对Octave的初步实现一、基本操作1.1 逻辑运算1.2 矩阵运算(numpy)1.2.1 导入库函数1.2.2 赋值1.2.3 提取元素1.3 其他二、移动数据2.1 size的用法2.2 文件读入及路径三、计算数据3.1 通用计算3.2 重点计算四、绘图数据4.1 绘制函数4.2 添加标签4.3 多图展示4.4 改变坐标轴4.5 热力图五、代价函数5.1 问题5.2 公式5.3 代码5.4分析六、向量化一、基本操作1.1 逻辑运算1.相等(== ,!=)2.逻辑与( &amp

2020-07-19 18:56:55 892

原创 多变量线性回归

这里写目录标题一、多维特征1.1 引入1.2 几个变量1.3 多变量公式二、多变量梯度下降2.1 构建代价函数:2.2 多变量线性回归的批量梯度下降算法三、梯度下降实践——特征缩放3.1 提出问题3.2 解决方案四、梯度下降实践——学习率五、特征和多项式回归六、正规方程七、正规方程及不可逆性7.1提出问题7.2不可逆矩阵7.3产生原因7.4解决方法一、多维特征1.1 引入对房价模型增加特征,如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x1,x2,…,xn)1.2 几个变量① n:

2020-07-18 11:44:17 363

原创 矩阵

一、矩阵Aij是指第i行,第j列的元素。二、向量向量是一种特殊的矩阵,如下图所示为四位列向量(4×1)对于向量索引,一般采用1索引向量,如下图所示。三、矩阵加法四、矩阵乘法1.2.矩阵乘法的性质:1.矩阵乘法不满足交换律:A×B≠B×A2.矩阵乘法满足结合律:A×(B×C)=(A×B)×C五、特殊矩阵1.单位矩阵:方阵,用I或E来表示,主对角线上均为1,其余都为0,如同乘法中的1对于单位矩阵,有AI=IA=A2.逆矩阵:只有当矩阵为方阵时才可能存在逆矩阵3.

2020-07-16 12:39:25 199

原创 代价函数和梯度下降

代价函数和梯度下降一、代价函数1.1线性函数1.2代价函数(平方误差函数)二、梯度下降2.1梯度下降2.2批量梯度下降三、梯度下降的线性回归一、代价函数1.1线性函数1.2代价函数(平方误差函数)用于获得与建模误差的平方和能够最小的模型参数二、梯度下降2.1梯度下降用于求函数最小值的算法。算法思想:开始时随机选择一个参数的组合,计算代价函数,然后寻找下一个能让代价函数下降最多的参数组合,继续执行上述内容直到找到一个局部最小值。2.2批量梯度下降算法公式:其中α是学习率,决定我们

2020-07-16 12:38:52 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除