数据挖掘与机器学习
文章平均质量分 71
xbmatrix
这个作者很懒,什么都没留下…
展开
-
Logistic回归复习总结
参考:http://blog.csdn.net/dongtingzhizi/article/details/15962797[-] Logistic回归总结引言基本原理具体过程1 构造预测函数2 构造Cost函数3 梯度下降法求J的最小值4 梯度下降过程向量化代码分析 Logistic回归总结作者:洞庭之子微博:洞庭之子-原创 2017-03-05 16:40:23 · 4200 阅读 · 0 评论 -
深入理解LDA和pLSA
参考:http://blog.csdn.net/u010159842/article/details/48637095目录(?)[-]主题模型LDA41 各个基础模型411 Unigram model412 Mixture of unigrams model42 PLSA模型421 什么是pLSA模型422 EM算法的简单介绍423 EM算法估计转载 2017-03-22 00:08:23 · 1107 阅读 · 0 评论 -
统计学总结之Bias(偏差),Error(误差),和Variance(方差)的区别
参考:http://blog.csdn.net/qq_16365849/article/details/50635700目录(?)[-]Bias偏差Error误差和Variance方差的区别1概念2bias与Variance的区别3解决bias和Variance问题的方法Bias(偏差),Error(误差),和Variance(方差)转载 2017-03-18 18:17:59 · 9454 阅读 · 0 评论 -
L0、L1与L2范数
参考:http://blog.csdn.net/vividonly/article/details/50723852http://www.cnblogs.com/little-YTMM/p/5879093.htmlhttp://blog.csdn.net/zouxy09/article/details/24971995引子在介绍L0/L1/L2范数之前,先做个铺垫:L0/L原创 2017-03-12 18:27:32 · 2747 阅读 · 0 评论 -
机器学习算法常用指标总结
参考:http://www.cnblogs.com/maybe2030/p/5375175.html阅读目录1. TPR、FPR&TNR2. 精确率Precision、召回率Recall和F1值3. 综合评价指标F-measure4. ROC曲线和AUC5. 参考内容 考虑一个二分问题,即将实例分成正类(positive)或负类(neg转载 2017-02-23 22:50:50 · 603 阅读 · 0 评论 -
(EM算法)The EM Algorithm
Reference: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html转载 2017-03-16 23:32:33 · 323 阅读 · 0 评论 -
频繁项集挖掘算法Apriori FPGrowth
参考:http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.htmlhttp://blog.csdn.net/huagong_adu/article/details/17739247Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。Apriori算法Ap转载 2017-03-26 23:19:14 · 11825 阅读 · 0 评论 -
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?
参考:https://www.zhihu.com/question/31989952/answer/54184582在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化转载 2017-04-05 23:22:29 · 3578 阅读 · 0 评论 -
生成模型与判别模型
参考:http://blog.csdn.net/zouxy09/article/details/8195017生成模型与判别模型zouxy09@qq.comhttp://blog.csdn.net/zouxy09 一直在看论文的过程中遇到这个问题,折腾了不少时间,然后是下面的一点理解,不知道正确否。若有错误,还望各位前辈不吝指正,以免小弟一错再错。在此谢转载 2017-03-11 09:20:29 · 207 阅读 · 0 评论 -
Softmax的理解与应用
参考:http://blog.csdn.net/supercally/article/details/54234115http://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&mid=2247484589&idx=1&sn=4c56ed90492d8ac85fc66fd42d4d998b&chksm=97ea2ec8a09da7de051f0c59f18转载 2017-03-07 00:12:07 · 1135 阅读 · 0 评论 -
机器学习中的损失函数
参考:http://blog.csdn.net/rosenor1/article/details/52302217[-]一log对数损失函数逻辑回归二平方损失函数最小二乘法 Ordinary Least Squares三指数损失函数Adaboost四Hinge损失函数SVM五其它损失函数损失函数(loss function)是用来估量你模型的预测值f(x转载 2017-02-22 23:07:07 · 852 阅读 · 0 评论 -
SMO算法
参考:http://mp.weixin.qq.com/s?__biz=MjM5MDEzNDAyNQ==&mid=207467263&idx=6&sn=e6f5af59fe8776cd9bc872b8194fe158&mpshare=1&scene=1&srcid=0301wDKYOFIcIZhnvFQf0ukI#rd我有一双神奇的解题小手,不断的化简——代入——化简——代入,不断的迭代——转载 2017-03-01 23:14:08 · 573 阅读 · 0 评论 -
先验分布、后验分布、共轭分布、共轭先验分布、
参考:http://blog.sina.com.cn/s/blog_b9a335010102vfdf.html0. 贝叶斯公式X为抽样样本,P(X)为我们抽到该样本的概率,有时被称为"证据",仅仅是归一化因子,如果不关心后验概率P(θ|X)的具体值,只考察θ取何值时后验概率P(θ|X)最大,则可将分子P(X)省略1. 先验信息在抽取样本X之前,人们对所要原创 2017-03-18 13:51:26 · 13185 阅读 · 0 评论 -
MLE、MAP、Bayies估计
reference:http://blog.sina.com.cn/s/blog_620b4cae0102vu02.htmlhttp://www.cnblogs.com/sylvanas2012/p/5058065.html最大似然估计MLE:给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已定,参数未知”。但把待估计参数θ看成转载 2017-03-16 23:13:50 · 696 阅读 · 0 评论 -
TF-IDF的原理与应用
参考:http://www.codeceo.com/article/tf-idf.html……1.TF-IDF原理TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。其难能可贵之处在原创 2017-02-27 20:37:34 · 1799 阅读 · 0 评论 -
Kmeans
参考:http://blog.csdn.net/sb19931201/article/details/53586468http://blog.csdn.net/angelahhj/article/details/41038955http://blog.csdn.net/loadstar_kun/article/details/39450615在统计计算中,期望最大化算法是在概率原创 2017-03-12 21:08:21 · 479 阅读 · 0 评论 -
支持向量机SVM
参考:svm公式推导,拉格朗日 kkt条件 对偶问题 smo算法 常用核函数 rbf核函数 01损失 hinge损失 软间隔 松弛变量 libsvm参数原创 2017-03-01 22:12:52 · 3617 阅读 · 0 评论 -
详解并行逻辑回归
参考:http://blog.csdn.net/zhoubl668/article/details/19612215编者按:回归其实就是对已知公式的未知参数进行估计,Logistic regression是线性回归的一种,是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用。本文来自腾讯冯扬的博客:并行逻辑回归 ,主要从并行化的角度讨论LR的实现。CSD转载 2017-03-05 23:45:27 · 1677 阅读 · 0 评论 -
KD树详解及KD树最近邻算法
参考:http://blog.csdn.net/app_12062011/article/details/51986805http://www.cnblogs.com/snake-hand/archive/2012/08/13/2636236.html2.1、什么是KD树 Kd-树是K-dimension tree的缩写,是对数据点在k维空间(如二转载 2017-03-19 12:34:21 · 19036 阅读 · 6 评论 -
概念
ground truth参考:https://www.zhihu.com/question/22464082说白了,就是标准答案,真实值,设定的一个正确的基准。有监督学习中,输入的训练数据会有相应的ground truth(真实值,标签),在计算loss的时候,需要将预测值和这个真实值进行对比从而计算距离。Ground truth当然还可以用来做reinforcement learning,就是在...原创 2018-02-26 20:53:49 · 422 阅读 · 0 评论