nlp
文章平均质量分 66
狼图腾-狼之传说
专注数据挖掘,自然语言处理,信息检索。
展开
-
simhash与重复信息识别
这篇文章写的很好http://grunt1223.iteye.com/blog/964564转载 2012-04-12 22:59:39 · 1133 阅读 · 0 评论 -
基于大规模语料的新词发现算法
文 / 顾森对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢?这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西——转载 2012-07-23 08:51:05 · 2819 阅读 · 0 评论 -
Mediawiki的配置和修改方法
Mediawiki的配置和修改方法1、界面设置 在MediaWiki中大部分的界面信息都存放在Special:Allmessages页面里面,包括界面的文字、链接、气泡提示、热键等等, 杂七杂八的,非常多,你可以在直接输入Special:Allmessages来根据自己实际情况修改配置。至于具体的都是些什么内容,本文就不在多说 了,您可以通过google找到更具体的,呵呵! 2、上转载 2012-07-27 17:56:40 · 2903 阅读 · 0 评论 -
Prismatic:用机器学习分析用户兴趣只需10秒钟
摘要:斯坦福大学和伯克利的四位年轻的计算机科学博士创立了Prismatic。他们不仅是科学家同时也是实干家,他们放弃了Hadoop等重量级框架,通过过程化语言的深度使用,简单并且高效的实现了大数据的处理,高度并发,实时等优异的特性。这篇文章主要描述的是Prismatic公司系统架构,作者是Todd Hoff,本文出自Todd对Prismatic的程序员Jason Wolfe的邮件专转载 2013-01-03 21:05:16 · 3365 阅读 · 1 评论 -
TF和IDF
时间久了都忘记了,下面记录一下:用下面的tfidf函数来计算单词w的权重weight(w)=TF*IDF=TF*lg[|D|/DF(w)],其中词频TF为单词w在该文本中出现的次数,|D|代表训练集中文本总数,DF(w)为出现了w的文档数,而IDF=lg[|D|/DF(w)]称为逆文本频数.该算法又称为tfidf法. TFIDF公式基于这样的假设:特征项的重要性正比于特征项在该原创 2013-05-07 09:50:38 · 683 阅读 · 0 评论 -
Python version 2.7 required, which was not found in the registry
安装setuptools的时候,不能再注册表中识别出来python2.7在网上找了方法,仅作笔记,供下次使用 方法: 新建一个register.py 文件,把一下代码贴进去,保存(G盘) ## script to register Python 2.0 or later for use with win32all# and other extensions转载 2013-09-29 17:21:07 · 5194 阅读 · 0 评论