机器学习
文章平均质量分 66
时光杂货店
这个作者很懒,什么都没留下…
展开
-
几个常用机器学习算法 - k近邻算法(kNN)
几个常用机器学习算法 - k近邻算法(kNN)1K近邻算法(k Nearest Neighbors, kNN)是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K个距离最近的邻居进行分类判断。2kNN由3个要素决定: ①距离度量方法 ②k值 ③分类决定规则距离度量方法公式为Lp(xi,xj)=(∑l=1n|x(l)i−x(l)j|p)1/pL_p(x_i,x_j)=\l原创 2016-10-19 19:53:35 · 1555 阅读 · 0 评论 -
简单谈谈Cross Entropy Loss
写在前面 分类问题和回归问题是监督学习的两大种类。 神经网络模型的效果及优化的目标是通过损失函数来定义的。回归问题解决的是对具体数值的预测。比如房价预测、销量预测等都是回归问题。这些问题需要预测的不是一个事先定义好的类别,而是一个任意实数。解决回顾问题的神经网络一般只有一个输出节点,这个节点的输出值就是预测值。对于回归问题,常用的损失函数是均方误差( MSE,mean squared ...原创 2018-06-23 11:26:16 · 182786 阅读 · 26 评论 -
简单记录交叉验证(Cross Validation)
1 训练集 vs. 测试集在模式识别与机器学习的相关研究中,经常会将数据集分为训练集跟测试集两个子集,前者用以建立模型,后者则用来评估该模型对未知样本进行预测时的精确度,正规的说法是泛化能力(generalization ability)。将完整的数据集分为训练集跟测试集,必须遵守以下要点:只有训练集才可以用在模型的训练过程中,测试集则必须在模型完成之后才被用来评估模型优劣的依据。训练集中样本数转载 2017-09-19 15:18:07 · 1599 阅读 · 0 评论 -
熵与信息增益
熵与信息增益在决策树算法中,决定特征优先级时,需要用到熵的概念,先挖个坑1 信息量信息量是用来衡量一个事件的不确定性的;一个事件发生的概率越大,不确定性越小,则它所携带的信息量就越小。假设X是一个离散型随机变量,其取值集合为XX,概率分布函数为p(x)=Pr(X=x),x∈Xp(x)=Pr(X=x),x∈X,我们定义事件X=x0X=x_0的信息量为: I(x0)=−log(p(x0))I(x_0)原创 2016-10-19 23:09:00 · 23079 阅读 · 11 评论 -
生成模型和判别模型的对比
1 前言监督学习就是学习一个模型(或得到一个目标函数),再用这个模型,对给定的数据进行预测。 这个模型的一般形式为一个决策函数Y=f(X),或者条件概率分布P(Y|X)。决策函数Y=f(X):输入一个X,它就输出一个Y,这个Y与一个阈值比较,根据比较结果判定X属于哪个类别。例如两类(w1和w2)分类问题,如果Y大于阈值,X就属于类w1,如果小于阈值就属于类w2。这样就得到了X的类别。条件概率分布P原创 2017-09-23 12:18:28 · 1447 阅读 · 0 评论 -
机器学习中的评测指标
机器学习中的评测指标先更新目前自己经常用到的:Recall,Precision和Accuracy二分问题的4种结果RecallPrecisionAccuracy二分问题的4种结果TP(True positive) : 真值为正,预测结果也为正(正确预测为正样本)TN(True Negative) : 真值为负,预测结果也为负(正确预测为负样本)FP(Fasle Positve) :原创 2016-09-16 11:45:58 · 1157 阅读 · 0 评论 -
Softmax 和 Softmax-loss的推演
Softmax 和 Softmax-loss的推演记录Softmax 函数σ(z)=(σ1(z),...σm(z))\sigma(z)=(\sigma_1(z),...\sigma_m(z))定义如下: σi(z)=exp(z)Σmj=1exp(zj),i=1,...,m\sigma_i(z)={exp(z)\over\Sigma_{j=1}^m exp(z_j)} , i = 1,...,m它在原创 2016-10-01 10:53:06 · 4994 阅读 · 0 评论 -
几个常用机器学习算法 - 隐马尔可夫模型
几个常用机器学习算法 - 隐马尔可夫模型1先引入一个知乎上看到的例子:假设你的手中有三个不同的骰子。 第一个是我们平常都能见到的骰子(称其为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6; 第二个有4个面(称其为D4),每个面(1,2,3,4)出现的概率是1/4; 第三个有8个面(称这个骰子为D8),每个面(1,2,3,4,5,6,7,8)出现的概率是1/8。现在你要开始掷原创 2016-10-26 17:04:34 · 6708 阅读 · 0 评论 -
几个常用机器学习算法 - 逻辑回归
1 回归在数学上来说,回归是给定一个点集,然后用一条曲线去拟合。 如果这条曲线是一条直线,那就被称为线性回归;如果是一条二次曲线,就被称为二次回归。 回归还有很多的变种,如locally weighted回归,logistic回归等等。一个简单的例子:如果想评估一个房屋的价值,那么需要考虑很多因素,比如面积、房间数量、地段、朝向等等(这些影响房屋价值的因素被称为特征),此处,为了简单,我们假设只原创 2016-11-02 19:55:26 · 2120 阅读 · 0 评论 -
极大似然估计
极大似然估计1 独立同分布概率统计中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量被称作独立同分布(independent and identically distributed (i.i.d.))。随机变量X1X_1和X2X_2独立,是指X1X_1的取值不影响X2X_2的取值,X2X_2的取值也不影响X1X_1的取值。 随机变量X1X_1和X2X_2同分布,意味着原创 2016-10-31 10:50:17 · 2934 阅读 · 0 评论 -
PCA的数学原理
本篇博客转载自《PCA的数学原理》PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。转载 2017-02-17 12:06:44 · 913 阅读 · 0 评论 -
几个常用机器学习算法 - 最大熵模型
作者:xg123321123出处:http://blog.csdn.net/xg123321123/article/details/54286514声明:版权所有,转载请联系作者并注明出处熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0。 如果没有外界干扰,随机变量总是趋向于无序,在经过足够时间的稳定演化,它应该能够达到的最大程度的熵。 假设离散随机变量XX的概率原创 2017-01-09 10:19:33 · 9176 阅读 · 0 评论 -
几个常用机器学习算法 - 决策树算法
几个常用机器学习算法 - 决策树算法本篇博客涉及到的信息论概念 - 熵和信息增益 - 可以参考这里。1决策树算法(Decision Tree)是从训练数据集中归纳出一组分类规则的过程。 实际操作中,与训练数据集不相矛盾的决策树可能有多个,也可能一个都没有;理想情况是找到一个与训练数据矛盾较小的决策树,同时也具有良好的泛化能力。2决策树结构: 有向边节点 -内部节点: 数据的特征 -叶节点原创 2016-10-25 18:03:33 · 3966 阅读 · 0 评论 -
Linux 非root用户安装cuda和cudnn
Linux 非root用户安装cuda和cudnn1、cuda下载 https://developer.nvidia.com/cuda-downloads 2、在选择linux及对应的系统之后,选择 runfile(local)这个选项,然后下面给出的命令 “sudo sh cuda_9.0.176_384.81_linux.run” 中sudo这个需要管理员账号,其实可以去掉sudo,直接...转载 2018-08-31 11:16:13 · 2442 阅读 · 0 评论