机器学习
yaochen2507
java后端开发
展开
-
机器学习——梯度下降法
梯度下降(Gradient Descent)算法是机器学习中使用非常广泛的优化算法。当前流行的机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。 接下来我将介绍三种梯度下降算法:随机梯度下降算法、批量梯度下降算法、小批量梯度下降算法 梯度下降 梯度下降原理:将函数比作一座山,我们站在某个山坡上,往四周看,从哪个方向向下走一小步,能够下降的最快,很明显从起始点出发最陡的地方下降最快,这...原创 2018-11-03 22:20:18 · 872 阅读 · 0 评论 -
Xgboost调参--针对过拟合和非平衡数据
调参须知: 在机器学习中,调参是一项dark art(可以理解为一项优美而道不明的事情)。一个模型的最优参数取决于很多因素。因此不可能建立一个完备的调参说明书去获取最优参数。 理解 Bias-Variance tradeoff (先说一下tradeoff的意思:就是折中的意思,这里是说) 如果你上过机器学习或者统计学课程,这是一个非常重要的概念。当我们允许一个模型非常复杂的时候(比如,增加每一棵树...翻译 2019-08-14 10:55:31 · 2366 阅读 · 0 评论 -
机器学习——随机森林(Random Forest)
目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 随机森林的随机性体现: 6 袋外错误率(oob error) 7 随机森林的Python实现 1 什么是随机森林? 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法...原创 2019-07-24 14:43:33 · 2484 阅读 · 1 评论 -
与老杨交流
7/15 朴素贝叶斯优缺点https://www.cnblogs.com/pinard/p/6069267.html 6/30 优化方法https://www.cnblogs.com/guoyaohua/p/8542554.html 6/29pandas,五中回归损失函数再看 6/27时间序列模型预测方法https://zhuanlan.zhihu.com/p/54413813 6...原创 2019-06-23 23:16:48 · 199 阅读 · 0 评论 -
机器学习——LDA
步骤: 1 计算类内散度矩阵 2 计算类间散度矩阵 3 计算矩阵 4计算矩阵的最大值的d个特征值 5 计算d个特征值对应的d个特征向量,计算投影矩阵为W 6 输出新样本集={(p1,y1),(p2,y2)...(pm,ym)} 具体推导: 定义: j 类样本个数 j 类样本集合 j 类样本均值j 类协方差矩阵 均值 ...原创 2019-06-22 11:45:59 · 1237 阅读 · 0 评论 -
机器学习——L1、L2正则化
正则化的本质是一种回归的形式,它将系数估计朝零的方向进行约束、调整或缩小,它可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。 范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下: L1范数 当 p=1时,是L1范数,其表示某个向量中所有元素绝对值的和 L2范数 当p=2时,是L2范数, 表示某个向量中...原创 2019-05-08 17:33:58 · 341 阅读 · 0 评论 -
机器学习——逻辑回归(logistics regression)
目录 一.分类和回归任务的区别 二.逻辑回归不是回归 三.如果是你,你要怎么做 四.把回归函数掰弯 五.选定阈值 六.最大似然估计 七.求解交叉熵损失函数 八.总结 一.分类和回归任务的区别 我们可以按照任务的种类,将任务分为回归任务和分类任务.那这两者的区别是什么呢?按照较官方些的说法,输入变量与输出变量均为连续变量的预测问题是回归问题,输出变量为有...原创 2019-05-05 20:58:32 · 308 阅读 · 0 评论 -
机器学习——Xgboost原理阐述
1. Abstract Boosting tree是一种有广泛应用的技术。听到boosting一词都知道它是一种迭代的更新的逐步降低模型整体的误差的办法如Adboost,当年Adboost跟SVM统治了整个机器学习界。最近我阅读了XGboost(下面简称XGB)论文,想跟大家分享一下自己的读后感,也自己的学习做个笔记。首先先说说XGB在实战上面的成就吧。 以机器学习竞赛网站Kaggle举办的挑战...原创 2019-04-25 11:46:25 · 657 阅读 · 0 评论 -
机器学习 “距离” “相似度”相关总结
在机器学习中,往往通过计算距离、相似度来进行两类别之间的判别,尤其是在自然语言处理领域有着重要应用,这些概念大多源于数学领域的度量、测量等概念。 英文名 中文名 公式 说明 Euclidean Distance 欧式距离 以古希腊数学家欧几里得命名的距离;也就是我们直观的两点之间直线最短的直线距离 Manhattan Distance 曼哈顿距...原创 2019-04-23 10:33:04 · 601 阅读 · 0 评论 -
机器学习——(SVM)支持向量机
该算法属于监督学习的一种,并且svm是最好的现成的分类器,这就意味着,在数据上应用基本形式的svm分类器就可以得到低错误率的结果。 svm能对训练集以外的数据做出很好的分类决策 在吴恩达机器学习视频中,首先通过逻辑回归中的0,1类所对应的损失函数开始,演变成支持向量机: 支持向量机在我理解的: 演变过程就是将内部的log函数替换成cos函数,其他的1/m不影响θ值,则直接可以换成一个...原创 2019-04-13 19:13:32 · 227 阅读 · 0 评论 -
牛顿迭代算法求根
公式推导:f(Xn)+f‘(Xn)*(X-Xn)(切线方程) 让求解的切线方程为0,即:f(Xn)+f‘(Xn)*(Xn+1 - Xn)=0 进而推导出:Xn+1 = Xn -f(Xn)/f‘(Xn) 当Xn+1与Xn之间差值无限接近时,即得到最终解。 例如求取方根,令f(Xn)= Xn^2 - n代入即可 python3.5代码实现: #coding:__utf-8_...原创 2019-04-09 11:33:22 · 1366 阅读 · 0 评论 -
特征工程——定义,数据筛选
使用sklearn做单机特征工程 目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾 3 特征选择 3.1 Filter 3.1.1 方差选择法...转载 2019-03-20 13:30:49 · 355 阅读 · 0 评论 -
机器学习——深入理解K-means,KNN算法的区别
K-means方法是一种非监督学习的算法,它解决的是聚类问题。 1、算法简介:K-means方法是聚类中的经典算法,数据挖掘十大经典算法之一;算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高,而不同聚类中的对象相似度较小。 2、算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直到得到...原创 2019-08-15 11:22:46 · 992 阅读 · 0 评论