数据挖掘/机器学习/自然语言处理
文章平均质量分 53
zimohuakai
这个作者很懒,什么都没留下…
展开
-
viterbi 算法
给出一个观测序列o1,o2,o3 …,我们希望找到观测序列背后的隐藏状态序列s1, s2, s3, …;Viterbi以它的发明者名字命名,正是这样一种由动态规划的方法来寻找出现概率最大的隐藏状态序列(被称为Viterbi路径)的算法。首先从最简单的离散Markov过程入手,我们知道,Markov随机过程具有如下的性质:在任意时刻,从当前状态转移到下一个状态的概率与当前状态之前的那些状态没有关系。所以,我们可以用一个状态转移概率矩阵来描述它。假设我们有n个离散状态S1, S2,…Sn,我们可以构造一个矩阵A转载 2010-12-13 10:12:00 · 12051 阅读 · 0 评论 -
[转载]中文搜索引擎技术揭密:中文分词
前言信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及alt转载 2012-04-17 11:11:13 · 4322 阅读 · 1 评论 -
分词技术杂记
1. "切分标志字串"预处理方法是一个毫无必要的技术,它增加了一遍扫描"切分标志词典"的时空复杂性,却并没有提高分词精度,因为所谓的切分标志其实都已经隐含在词典之中,是对词典功能的重复。实际上"切分标志"也没有标记歧义字段的任何信息。2. 词性分词一体化:存在词的兼类问题和规则集的确定问题。3. 未登录词的介入会引起新的切分歧义,从而使分词系统所面临的形势更加复杂化。Sun M.S. an原创 2012-04-17 11:27:57 · 863 阅读 · 0 评论 -
mmseg 分词算法
MMSEG是中文分词中一个常见的、基于词典的分词算法(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。由于它的简易直观性,实现起来不是很复杂,运行速度也比较快。关于算法的原文,可以参 见:http://technology.chtsai.org/mmseg/总的来说现在的中文分词算法,大概可以笼统的分为两大类:一种基于词典的,一种是非基于词典转载 2012-03-04 14:28:11 · 665 阅读 · 0 评论 -
大规模SNS中兴趣圈子的自动挖掘
转自http://www.infoq.com/cn/articles/zjl-sns-automatic-mining一.为何要在大规模SNS中挖掘兴趣圈子随着国外的facebook、twitter以及国内的人人、新浪微博等SNS及内容分享平台的逐步流行,如何从上亿的海量用户中自动挖掘兴趣圈子成为了一个有趣也非常必要的工作。所谓“兴趣圈子”,指的是在同一分享平台下,有着共同的兴趣爱好的用户转载 2012-02-25 23:21:17 · 1695 阅读 · 0 评论 -
小世界网络 Small-world networks
直观的讲,网络就是一些点和连接这些点的线段。这些线段可以有方向,可以没有方向(双向)。方便起见,只看那些纽带是无方向的网络。 大致上,可以把各种不同的网络按照放在“极端有序”(左边)到“极端无序”(右边)这个谱系上。它们都对应一个唯一的数学表达(N*N的矩阵,N是节点的数目,矩阵里的元素不是0,就是1)。来源:Bordalier Institute无序有无序的好处。对于转载 2012-02-09 13:34:13 · 9630 阅读 · 0 评论 -
中文分词和TF-IDF
转自月光博客:http://www.williamlong.info/archives/1839.html 中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。 TF-IDF(term frequency–inverse转载 2012-01-03 21:13:34 · 783 阅读 · 0 评论 -
机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting
发布于http://leftnoteasy.cnblogs.com,最近看的一些论文中发现了模型组合的好处,比如GBDT(Gradient Boosting Decision Tree)或者rf,都是将简单的模型组合起来,效果比单个更复杂的模型好。组合的方式很多,随机化(比如random forest),Boosting(比如GBDT)都是其中典型的方法,今天主要谈谈Gradient Bo转载 2011-10-30 13:21:57 · 618 阅读 · 0 评论 -
机器学习及其在信息检索中的应用——记李航研究员讲座
李博士首先用AdaBoost算法在人脸识别领域的重要应用展现了机器学习对我们日常生活的影响。基于统计理论的学习以大量的训练数据作为学习基础,学习的最终过程是产生机器自动处理与自动决策的智能。接下来李博士介绍了监督学习,他首先使用了一组简单的01预测序列(可以表征在某种条件下明天会不会下雨的预测等等)介绍了监督学习的简单模型,并介绍了监督学习的三种形式的损失函数——指数损失、离散损失和平方损失,接下转载 2011-10-30 13:07:55 · 5263 阅读 · 0 评论 -
RMS Error
给定一个x, 回归线预测出一个平均的y值, 为了评价y值与平均值的spread状况, 定义了平方平均数误差(root-mean-square error, r.m.s. error).ref: http://www-stat.stanford.edu/~susan/courses/s60/split/node60.html原创 2011-10-30 12:59:58 · 3982 阅读 · 0 评论 -
AdaRank和AdaBoost
这篇论文的题目是AdaRank: A Boosting Algorithm for InformationRetrieval。作者是微软亚洲研究院的的徐君和李航。这篇文章的主要思想就是利用boosting算法的思想在learning to rank里直接优化评价方法(directoptimization of performance measure).涉及到learning to rank转载 2011-10-30 11:29:15 · 3841 阅读 · 2 评论 -
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
发布于http://leftnoteasy.cnblogs.com 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。 模型组合(比如说有Boosting,Bagging转载 2011-10-30 13:25:50 · 831 阅读 · 0 评论 -
vc demension
VC 维在有限的训练样本情况下,当样本数 n 固定时,此时学习机器的 VC 维越高学习机器的复杂性越高。VC 维反映了函数集的学习能力,VC 维越大则学习机器越复杂(容量越大)。 所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制。 推广的界(经验风险和实际风险之间的关系,注意引入这个原因是什么?因为训练误差再转载 2011-10-29 22:33:20 · 556 阅读 · 0 评论 -
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
转载自 http://leftnoteasy.cnblogs.com一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在verycd可下载,可惜没有翻译。不过还是可以看。另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错的书,而且是2008年的,算是比较新的一本转载 2011-10-30 13:18:08 · 1010 阅读 · 0 评论 -
learning to rank 评价指标 MAP NDCG
MAP(Mean average precision):评价一个rank方法性能的一个指标,现在有很多query,首先看rank方法对各个query来说性能分别是怎么样的(也就是AP),再平均起来,就是MAP。AP怎么算那?举个例子,现有一个query,与之相关的文档有4——D1转载 2011-10-06 18:05:20 · 5806 阅读 · 0 评论 -
bootstrps、bagging 与boosting
bootstrps bagging boosting这几个概念经常用到,转载以备用:他们都属于集成学习方法,(如:Bagging,Boosting,Stacking),将训练的学习器集成在一起,原理来源于PAC学习模型(Probably Approximately Corre转载 2011-08-21 21:50:37 · 954 阅读 · 1 评论 -
会议排名
说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全.同分的按字母序排列. 不很严谨地说, tier-1是可以令人羡慕的, tier-2是可以令人尊敬的,由于AI的相关会议非常多, 所以能列进tier-3的也是不错的tier-转载 2011-07-14 10:26:43 · 854 阅读 · 0 评论 -
皮尔逊相关系数
欧几里德距离欧几里得度量定义欧几里得空间中点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为但是当评价结果中,评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度.还有一种评价方法就是使用皮尔逊相关系数,它可以完成"夸大值纠偏":皮尔逊相关度系数两个变量之间的相关系数越高,从一个变量去预测另一个变量的精确度就越高,这转载 2011-07-01 10:16:00 · 12117 阅读 · 0 评论 -
百度分词算法分析(一)(二)(三)
查询处理以及分词技术 百度分词算法分析(一)请见:http://topic.csdn.net/u/20101231/22/763e8601-972f-4459-acba-47435410a7ed.htmlSpelling Checker拼写检查错误提示(以及拼音提示功能) 百度分词算法分析(二)请见:http://topic.csdn.net/u/20101231/22/e8转载 2012-05-23 19:45:58 · 831 阅读 · 0 评论