机器学习
文章平均质量分 63
windows2
这个作者很懒,什么都没留下…
展开
-
LDA学习笔记1-参数估计
这几天学习在LDA,终于把其原理搞清楚了,记录一下要点1. 参数估计和预测对于一个已知模型,贝叶斯推理的两个大问题,1.参数估计,主要方法有极大似然估计(MLE,Maximum likelihood estimation)和极大后验概率(MAP,Maximum a posteriori estimation),也可以直接求解P(/theta | X),其中X为已知数据集2.预测方法原创 2013-08-07 22:46:29 · 2332 阅读 · 0 评论 -
tensorboard使用记录
最近在学习使用tensorboard开始用了ipython ,遇到两个坑,记录一下第一个是:InvalidArgumentError (see above for traceback): You must feed a value for placeholder tensor 'inputs/x_input' with dtype float [[Node: inputs/x_in原创 2017-10-13 19:11:00 · 1782 阅读 · 0 评论 -
分类算法评估--假设检验
我们有时需要比较两个分类算法a和原创 2014-09-21 23:12:00 · 1161 阅读 · 0 评论 -
其他TM:Polylingual Topic Model(PLTM)
这个模型用于多个语言,所以叫poly lingual。原创 2014-06-02 01:04:20 · 1114 阅读 · 0 评论 -
Dirichlet Process-非参数贝叶斯(1)
1. jardon的文章1.在de finetti的数学书中,他证明了,当一个可数无限维随机变量集合{x1,x2,...}满足infinitely exchangeable性质,即,对集合中取出任意N个元素,组成一个集合{x1,x2,...,xN} 如果其上的联合概率和顺序无关,即对{1,2,..N}的任意新排列,记为C1,C2...CN,有P(x1,x2...xN)=P(x_C1,x_C2,.原创 2014-01-07 17:46:49 · 2243 阅读 · 0 评论 -
LDA的应用:short text classification
参考文献《Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections》这个文章提出一个利用LDA辅助分类,以解决短文本词少稀疏问题,使得主题更加集中的framework,是一种semi-supervise的方法他的做法是1. 寻找一个辅助的外部原创 2013-11-25 23:59:28 · 2987 阅读 · 0 评论 -
LDA的应用:《Finding scientific topics》
参考文献:《Finding scientific topics》这个文章讲了LDA的原理,它谈到几点1. 测试了variational Bayes,expectation propagation,Gibbs sampling三种imference的方法,gibbs sampling收敛速度最快,并且gibbs可以同时开几个MC链,方便并行化处理2.TM的评测和参数选择Perpl原创 2013-11-24 23:14:56 · 2534 阅读 · 0 评论 -
LDA学习笔记2-共轭先验
先验概率用于表达对于一组数据的预定义的常识等,在MAP,BI等算法中都要使用。理论上函数形式可以自由选择任何一种分布。但是在实际问题中,一部分函数将导致计算困难,所以最好能找到既满足数据经验,又有良好计算性质的函数。共轭先验的定义为这样:如果先验概率p(/theta)和后验概率p(/theta |X)具有相同的函数形式,即训练数据X仅影响后者的参数设定,而不是改变函数形式,则称之为一对共轭原创 2013-08-07 23:21:03 · 1022 阅读 · 0 评论 -
极大熵模型和逻辑回归的等价性
极大熵模型的形式化定义是这样的,其中第一个约束条件展开来就是(6.11),表示对于特征函数的期望接下来把这个约束优化问题转换成无约束拉格朗日问题,再求解对偶问题,令偏导数=0,获取P(y|x)的形式为Z为归一化因子。注意到此形式和多类别的逻辑回归等同。以上来源为李航的《统计机器学习》,但是有一些问题他没有讲的很明白在http://www.win-原创 2013-09-27 19:49:41 · 1157 阅读 · 0 评论 -
LDA学习笔记4-MCMC
之前提到的sampling方法存在各自的缺点,如对函数的数学性质有一定要求,不适应高维场景等,因此有人提出了Markov Chain Monte Carlo (MCMC)方法MCMC方法的基本思想就是构造一个markov链,使得其最终收敛到平稳的目标分布p(x)。则由任意点x0出发,依次生成x1,x2...,收敛后的样本点xi 符合目标分布(reminding,对转移矩阵P,存在单个特原创 2013-08-11 16:09:23 · 1622 阅读 · 1 评论 -
LDA学习笔记3-抽样算法
抽样问题定义为,对于给定概率p(x),抽取一组iid对于较为复杂的概率密度函数,我们常常无法直接利用标准抽样等方法抽取出一组满足MCMC(markov chain monte carlo)原创 2013-08-10 00:17:05 · 1574 阅读 · 0 评论 -
tensorboard的histogram数据解读
仔细研究了一下tensorboard的直方图表示参考文献, 官方文档:https://www.tensorflow.org/get_started/tensorboard_histogramsimport tensorflow as tfk = tf.placeholder(tf.float32)# Make a normal distribution, with a shifti原创 2017-10-13 19:22:24 · 5030 阅读 · 0 评论