nlp
zlging309
这个作者很懒,什么都没留下…
展开
-
RNNLM
http://www.fit.vutbr.cz/~imikolov/rnnlm/IntroductionNeural network based language models are nowdays among the most successful techniques for statistical language modeling. They can be eas原创 2013-07-29 15:11:52 · 1972 阅读 · 0 评论 -
Min-wise independent permutations
地址:http://www.cs.princeton.edu/courses/archive/spr04/cos598B/bib/BroderCFM-minwise.pdf原创 2013-08-29 11:26:23 · 763 阅读 · 0 评论 -
VectorSpaces
word vector :的有人做句子级的语义向量,比如这个http://www.socher.org/index.php/Main/SemanticCompositionalityThroughRecursiveMatrix-VectorSpaces篇章级目前还是topic model用的比较多,形式上也是一篇文章一个实数向量。但是和word2vec不是同一个派系的原创 2013-09-02 20:19:51 · 587 阅读 · 0 评论 -
句法分析
http://www.cnblogs.com/xyz2abc/p/3265512.html原创 2013-08-19 15:49:25 · 1036 阅读 · 0 评论 -
Parser总结
stanford parser地址:http://nlp.stanford.edu/software/lex-parser.shtmlMstparser 地址:http://www.seas.upenn.edu/~strctlrn/MSTParser/MSTParser.html原创 2013-07-19 17:22:53 · 431 阅读 · 0 评论 -
分词
一个度量分词准确性的办法,先分词,然后用word2vec算算词语的相似性原创 2013-08-21 12:07:56 · 654 阅读 · 0 评论 -
word2vec学习
谷歌已经使用Deep Learning技术开发了许多新方法来解析语言,目前,谷歌开源了一款基于Deep Learning的学习工具——word2vec,这是首款面向大众的Deep Learning学习工具学习中原创 2013-08-25 23:28:20 · 1289 阅读 · 0 评论 -
NLP工具集
外国的http://nlp.stanford.edu:8080/parser/index.jsp仅限英文,中文可以使用原创 2013-07-11 16:24:39 · 570 阅读 · 0 评论 -
关于mallet
还没研究原创 2013-08-13 11:34:00 · 415 阅读 · 0 评论 -
Lucene分词的注意事项
版本问题JE分词目前只用于Lucene的1.9-2.4版本,3.0版本的分词不可用,原因待查找原创 2013-12-24 14:21:09 · 670 阅读 · 0 评论 -
vsm,topic model,LDA比较
无原创 2013-08-27 10:00:18 · 1479 阅读 · 0 评论 -
最大匹配法分词
中文分词入门之最大匹配法淘宝目前的分词用的好像就是这类原创 2013-08-15 10:58:22 · 478 阅读 · 0 评论 -
KenLM Language Model Toolkit
无原创 2013-08-26 17:20:10 · 1396 阅读 · 0 评论 -
Parsing with Compositional Vector Grammars
http://nlp.stanford.edu/pubs/SocherBauerManningNg_ACL2013.pdf翻译 2013-07-29 17:01:29 · 983 阅读 · 0 评论 -
开源NLP工具
https://github.com/aaronlifenghan/aaron-project-lepor机器翻译自动评价诸多开源代码open source for research purposemachine translation evaluation tools:https://github.com/aaronlifenghan/aaron-project-hlepor原创 2013-08-06 19:49:05 · 627 阅读 · 0 评论 -
聚类比较好的开源组件graphlab
word2vec很热原创 2013-08-20 09:29:22 · 1034 阅读 · 0 评论 -
自然语言处理PPT下载
http://pan.baidu.com/share/link?shareid=1471632606&uk=3223972836李志飞的原创 2013-08-19 17:20:53 · 1032 阅读 · 0 评论 -
LLDA
LLDA 主要是用来解决多标签问题的slda要求每个doc只能有一个label。llda好像是在这点上做了扩展。参照:Supervised topic models stanford原创 2013-08-07 16:24:43 · 11103 阅读 · 1 评论 -
序列模式挖掘
http://www.mpi-inf.mpg.de/yago-naga/patty/原创 2013-08-21 12:06:01 · 685 阅读 · 0 评论 -
min-max-modular
未知原创 2013-08-21 14:53:14 · 497 阅读 · 0 评论 -
100w特征,2000个类别的分类问题,好的解决方法
二分类投票libsvm,训练时间太久,iblinear可以处理大数据。但是 当特征维度和类别个数都很大时,它就无力vowpal wabbit原创 2013-08-22 19:44:41 · 633 阅读 · 1 评论 -
命名实体识别
可以设计一个NER,将其识别出来原创 2013-08-22 19:46:16 · 577 阅读 · 0 评论 -
分词工具
Mallet:原创 2013-07-26 09:49:25 · 396 阅读 · 0 评论