NLP
文章平均质量分 94
wintersense
这个作者很懒,什么都没留下…
展开
-
词频统计及tf*idf应用
我继续完善次品 该文件可以读入temp原创 2014-07-25 12:53:21 · 819 阅读 · 0 评论 -
余弦相似度
/****************************************///创建人:李航前//时间:2014,9,11//内容:余弦相似度,做法思路参见http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html/****************************************/#include原创 2014-09-11 08:53:15 · 472 阅读 · 0 评论 -
词频统计
(未完待续)原创 2014-07-11 19:08:10 · 885 阅读 · 0 评论 -
计算分词的tf*idf算法
TF-IDF(termfrequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关转载 2014-08-23 19:53:15 · 1161 阅读 · 0 评论 -
LTP在实践中的使用
/* * This example shows how to use Java to build http connection and request * the ltp-cloud service for perform full-stack Chinese language analysis * and get results in specified formats */impo原创 2014-11-29 09:21:35 · 1437 阅读 · 0 评论 -
张乐最大熵模型文件格式分析
本文为张乐最大熵工具包模型文件格式分析:训练文件如下:c1 f21 f30 f40 f51 f60 f70 f81 f91 f101 f111 f120 f130 f144 f150 f160 f171c1 f21 f30 f40 f51 f60 f70 f80 f91 f101 f111 f120 f130 f144 f151 f160 f171c4 f20 f30 f4转载 2014-12-14 09:53:31 · 749 阅读 · 0 评论 -
张乐C++最大熵模型的命令行实现方法
最近做了一个应用最大熵模型movie-review二元分类的项目。其中最大熵模型应用的是张乐教授的最大熵工具http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html。分析数据movie-review应用的是Bo-Pang http://www.cs.cornell.edu/people/pabo/movie-review-data原创 2014-12-14 19:39:27 · 2362 阅读 · 0 评论 -
svmlight使用心得
最近用其svmlight进行movie review文本分类的问题。查阅了一些svmlight软件的使用方法,在此整理如下:1)下载svm_light软件,分别为svm_classify.exe和svm_learn.exe2)下载它的训练数据的example,如下面的图所示:train.datmodeltest.dat与train.dat格式相似3)下面了解原创 2015-03-05 16:27:20 · 4386 阅读 · 2 评论 -
svm与文本分类
文本分类与SVM分类: 数据挖掘2012-11-18 20:45 13579人阅读 评论(9) 收藏 举报目录(?)[+]之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下。1转载 2015-03-09 17:46:55 · 1993 阅读 · 0 评论