自然语言处理
鸭脖
爱学习
展开
-
MIT一牛人对数学在机器学习和计算机视觉的作用给的评述!
1. 线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是Introduction to Linear Algebra (3rd Ed.) by Gilbert转载 2015-04-15 20:37:10 · 4963 阅读 · 2 评论 -
隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的转载 2016-08-08 16:39:17 · 1561 阅读 · 1 评论 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料
機器學習、深度學習方面不錯的資料,轉載。原作:https://github.com/ty4z2008/Qix/blob/master/dl.md原作作者會不斷更新,本文更新至2014-12-21《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树转载 2016-08-04 17:25:53 · 1217 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g转载 2016-07-19 12:36:14 · 747 阅读 · 0 评论 -
bootstrap, boosting, bagging 几种方法的联系
转:http://blog.csdn.net/jlei_apple/article/details/8168856这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的转载 2016-07-19 12:33:46 · 672 阅读 · 0 评论 -
统计学习笔记(3)——k近邻法与kd树
在使用k近邻法进行分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量,所以距离的计算通常采用的是欧式距离。关键的是k值的选取,如果k值太小就意味着整体模型变得复杂,容易发生过拟合,即如果邻近的实例点恰巧是噪声,预测就会出错,极端的情况是k=1,称为最近邻算法,对于待预测点x,与x最近的点决定了x的类别。k值得增大意味着整体的转载 2016-07-25 10:13:40 · 740 阅读 · 0 评论 -
word2vec使用说明
Google的word2vec官网:https://code.google.com/p/word2vec/下载下来的Demo源码文件共有如下几个:word2vec – Revision 41: /trunk…LICENSE //Apache LICENSEREADME.txt //工具使用说明compute-accuracy.cdemo-analogy.sh //转载 2015-11-08 20:53:35 · 17298 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g转载 2015-08-23 14:09:12 · 779 阅读 · 0 评论 -
淘宝吴雪军:自然语言处理技术在搜索和广告中的应用
摘要:编者按:本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下: 我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告编者按:本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下:我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告是技术非常密集两个互联网转载 2015-08-21 21:42:00 · 4545 阅读 · 0 评论 -
举个简单例子说明条件独立
这个例子很好理解,A是熬夜,C是懒床,B是迟到。一般情况下,熬夜会增加懒床的概率,懒床会增加迟到的概率。当然,天气冷也会增加懒床的概率,堵车也会增加迟到的概率,现实生活中的可能性是很多的,我们现在只关注A熬夜和B迟到的概率P(A)、P(B)之间的关系。 显然,熬夜发生的情况下,迟到的概率是增加的。但有一种情况例外:就是已经知道今天已经懒床了,同时不知道是否熬夜了,也不知道是否会迟到,转载 2015-07-29 22:54:05 · 8989 阅读 · 1 评论 -
overfitting(过度拟合)的概念
最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下。overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解转载 2015-08-23 16:20:18 · 2006 阅读 · 0 评论 -
中文分词算法总结
什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学转载 2015-05-21 19:55:22 · 39903 阅读 · 5 评论 -
深度学习方法(六):神经网络weight参数怎么初始化
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。神经网络,或者深度学习算法的参数初始化是一个很重要的方面,传统的初始化方法从高斯分布中随机初始化参数。甚至直接全初始化为1或者0。这样的方法暴力直接,但是往往效果一般。本篇文章的叙述来源于一个国外的讨论帖子[1],下面就自己的转载 2016-08-10 20:31:43 · 2104 阅读 · 0 评论