机器学习
文章平均质量分 95
张之海
硕士毕业于东北大学,现就职于北京某猫头鹰公司,大数据工程师职位。
展开
-
吴恩达机器学习 学习笔记 之 二 :代价函数和梯度下降算法
二、2-1 Model Representation我们学习的第一个算法是线性回归,接下来会讲什么样的模型更重要,监督学习的过程是什么样子。首先举一个需要做预测的例子:住房价格上涨,预测房价,我们拥有某一城市的住房价格数据。基于这些数据,绘制图形。在已有房价数据集中,部分房子已售出,且我们知道这些房子的尺寸和售价。现在某人的房子是1250平方英尺,预测其可能的售价。...原创 2018-01-17 14:33:32 · 6389 阅读 · 1 评论 -
凸函数与凸规划
1 凸集凸集的基本特征是,任意两点所连成的线段仍然属于这个集合。(就像一个没有孔的实心铁片)2 凸组合两个点的所有凸组合的集合是连接两个点的线段。两个点的所有严格凸组合的集合是不含端点的线段。3 凸包用不严谨的话来讲,给定二维平面上的点集,凸包就是将最外层的点连接起来构成的凸多边形,它能包含点集中所有的点。在二维欧几里得空间中,凸包可想象为一条刚好包著所有点的橡皮圈。...原创 2019-03-15 10:26:45 · 920 阅读 · 0 评论 -
机器学习算法 之 支持向量机 SVM
1 基本知识2 面试问题2.1 问题1在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在 超平面上的投影仍然是线性可分的吗?这里需要用到凸集、凸组合、凸包的概念,可以参考另一篇文章:凸函数与凸规划参考文献:《百面机器学习》...原创 2019-03-15 10:32:33 · 650 阅读 · 0 评论 -
机器学习算法 之 逻辑回归算法
本文内容主要转自两处:[1] 逻辑回归从入门到深入(logistic regression)本文内容从Python 逻辑回归实际使用的角度出发,较为通俗易懂,感谢其作者的分享。[2] 《百面机器学习》之逻辑回归注意,下面有核心公式(1)、核心公式(2),笔者认为,理解了这两个公式,也就掌握逻辑回归的基本思想了。其中(1)是逻辑回归函数(又称为对数几率函数),输出结果是预测X为正例的最大概...原创 2019-03-20 17:25:42 · 1935 阅读 · 0 评论 -
机器学习算法之 贝叶斯分类
一、前期准备1 先验概率与后验概率(1) 概念先验概率:事情还没有发生,要求这件事情发生的可能性的大小。是根据以往经验和分析得到的概率。后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。(2) 举例先验概率:骰子,我们都知道概率是1/6,而且无数次重复实验也表明是这个数,这是一种我们人的常识。明天中午以前的温度分布。合理的方法是将之前的正态分布预期值...原创 2019-03-19 10:03:06 · 1172 阅读 · 0 评论 -
机器学习算法 之 集成学习:串行-Boosting族(AdaBoost),并行-Bagging、随机森林
1 集成学习方法包含两类:个体学习器间存在强依赖关系、必须串行生成的序列化方法代表是Boosting族算法。Boosting族中最著名的代表是AdaBoost。个体学习器间不存在强依赖关系、必须同时生成的并行化化方法代表是Bagging和随机森林2 Boosting (提升)Boosting(提升)族算法的思想:从训练集训练出一个基学习器,根据这个基学习器的表现对训练样本分布进...原创 2019-03-25 21:52:45 · 6731 阅读 · 0 评论 -
协方差、相关系数(Pearson 相关系数)
概念:Pearson相关系数 (Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。[1] 注: 【定距变量】[2][3] 若想理解定距变量,需要与其他变量类型进行比对。 统计学依据数据的计量尺度将数据划分为四大类 ,即定距型数据、定序型数据、定类型数据和定比型数据。 1. 定距型数据是...原创 2018-08-30 10:41:16 · 67376 阅读 · 3 评论 -
机器学习算法 之 集成学习:GBDT
提升方法(Boosting)——>提升树(Boosting Tree)——>梯度提升树(Gradient Boosting Decision Tree)参考文献:《统计学习方法—李航》1 提升树提升树(Gradient Boosting Decison Tree, 简称GBDT)是一种提升(Boosting)方法,以分类树或回归树作为基本分类器。所以属于Boosting族算法中的...原创 2019-03-26 17:22:28 · 541 阅读 · 0 评论 -
主成分分析
1 主成分分析的步骤在详述主成分分析之前,需要像语文阅读理解那样,通读全文(不用关注细节),知道这个方法要干什么,有什么计算步骤。原创 2018-09-04 20:19:09 · 1157 阅读 · 0 评论 -
机器学习算法之 K近邻算法
1 算法思想寻找与待分类样本最近的K个点,投票决定该样本是什么类别。2 KNN算法的三要素距离度量欧氏距离:m维空间中两个点之间的直线距离。d=∑(xi−yi)2d = \sqrt{\sum(x_i-y_i)^2}d=∑(xi−yi)2曼哈顿距离:曼哈顿大街上一个十字路口到另一个十字路口。d=∑∣xi−yi∣d = \sum{|x_i-y_i|}d=∑∣xi−yi∣切...原创 2019-04-04 22:15:27 · 292 阅读 · 0 评论 -
模型评估方法:混淆矩阵、查准率&查全率&P-R图
这篇文章转载自:分类器评估方法:准确率和混淆矩阵分类器评估方法:准确率和混淆矩阵注:本文是人工智能研究网的学习笔记1 准确率accuracy_score:函数计算分类准确率,返回被正确分类的样本比例(default)或者是数量(normalize=False)在多标签分类问题中,该函数返回子集的准确率,对于一个给定的多标签样本,如果预测得到的标签集合与该样本真正的标签集合严格吻合,则su...原创 2019-04-02 10:32:23 · 6739 阅读 · 0 评论 -
机器学习算法 之 L1、L2正则化
1 快速总结若损失函数为loss=min∑(yi−wTxi)2loss = min\sum(y_i-w^Tx_i)^2loss=min∑(yi−wTxi)21.1 L1、L2正则化的原理。L1——> |w| ——>菱形L1正则化的公式:min∑(yi−wTxi)2+λ∣∣w∣∣1min\sum(y_i-w^Tx_i)^2+\lambda||w||_1min∑(yi−w...原创 2019-04-03 11:40:56 · 2138 阅读 · 0 评论 -
机器学习最常用的5个“”回归损失函数”
本文系总结自文章机器学习大牛最常用的5个回归损失函数,你知道几个?。详细讲解请直接前往,本文只作为作者的笔记列出。误差=真实值-预测值。1 MAE(L1损失)与 MSE (L2损失)1.1 MAE与MSE的定义平均绝对值误差(MAE,也称L1损失)均方误差(MSE,也称L2损失)1.2 MAE与MSE的比较 简单来说,MSE计算简便,但MAE对异常点有更好的鲁棒性。 让我...原创 2019-04-25 20:48:50 · 1384 阅读 · 0 评论 -
机器学习算法 之 学习器 性能评估
内容选自周志华老师的《机器学习》一书,为保留笔记,上传至博客有兴趣者可互相学习,指正,谢谢。原创 2019-03-14 18:33:00 · 419 阅读 · 0 评论 -
机器学习算法 之 决策树
参考书:周志华-西瓜书# 数据:# 不浮出水面是否可以生存 是否有脚蹼 是不是鱼# 1 是 是 是# 2 是 是 是# 3 是 否...原创 2019-01-21 14:59:08 · 379 阅读 · 0 评论 -
吴恩达机器学习 学习笔记 之 一 监督学习和无监督学习
一、1-1 welcome1-2 什么是机器学习——Machine Learning机器学习尚无明确定义,现有的定义有:(1)Field of study that gives computers the ability to learn about being explicity (明确地) programmed. ——Arthur Samuel 机器学习做什么机器学习是一...原创 2018-01-16 20:27:46 · 7757 阅读 · 0 评论 -
吴恩达机器学习 学习笔记 之 四 多变量线性回归
一 、Multiple Features — 多维特征本节将介绍一种更有效的线性回归形式。这种形式适用于多个变量或多个特征的情况。目前为止,我们探讨了单变量/特征的回归模型,如下。用房屋面积x预测房子价格y。下面的公式就是我们所说的“假设”,其中x就是唯一的特征量。现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x1...原创 2018-01-23 20:32:35 · 3166 阅读 · 0 评论 -
吴恩达机器学习 学习笔记 之 三 线性代数基础
由于笔者正处学生阶段,这部分刚刚学习过,所以只浏览一遍视频,不再做完整笔记。三、线性代数回顾(Linear Algebra Review)3.1 矩阵和向量参考视频: 3 - 1 - Matrices and Vectors (9 min).mkv如图:这个是4×2矩阵,即4行2列,如m为行,n为列,那么m×n即4×2矩阵的维数即行数×列数矩阵元素(矩阵项):...原创 2018-01-18 22:10:17 · 602 阅读 · 0 评论 -
吴恩达机器学习 学习笔记 之 五 Octave 学习
5-1 Basic Operations —— 基本操作Octave是一种很好的原始语言(prototyping language),使用Octave 你能快速地实现你的算法,剩下的事情,你只需要进行大规模的资源配置,你只用再花时间用C++或Java这些语言把算法重新实现就行了。开发项目的时间是很宝贵的,机器学习的时间也是很宝贵的。所以,如果你能让你的学习算法在Octave上快速的实现,基本...原创 2018-02-08 20:58:01 · 1556 阅读 · 0 评论 -
吴恩达机器学习 学习笔记 之 六 Logistic Regression —— 逻辑回归
6.1 Classification —— 分类下面是分类问题的一些例子:判断一封电子邮件是否是垃圾邮件; 判断一次金融交易是否是欺诈; 判断一个肿瘤是恶性的还是良性的。在所有这些问题中,我们需要预测的是一个变量y。我们将因变量(dependent variable)可能属于的两个类分别称为负类(negative class)和正类(positive class),则因变量y ...原创 2018-02-22 22:10:47 · 864 阅读 · 0 评论 -
tensorflow 学习笔记
error: Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2 解决办法: 这里写链接内容原创 2018-05-24 21:07:07 · 263 阅读 · 0 评论 -
贝叶斯网络
后验概率:在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。参考文献:后验概率_百度百科原创 2018-09-11 11:23:43 · 1004 阅读 · 0 评论 -
常用数学公式,推导记录
常用公式的数学推导原创 2018-12-25 14:33:46 · 4688 阅读 · 0 评论 -
常见的损失函数
1 损失函数的一般形式 通常机器学习每一个算法中都会有一个目标函数,算法的求解过程是通过对这个目标函数优化的过程。在分类或者回归问题中,通常使用损失函数(代价函数)作为其目标函数。损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的算法使用的损失函数不一样。 损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,...原创 2019-04-20 10:46:54 · 1881 阅读 · 0 评论