- 博客(8)
- 资源 (20)
- 收藏
- 关注
原创 采用Weka中的KNN算法进行文本分类
Weka是新西兰Waikato大学开发的一款开源的基于Java的数据挖掘工具,其官方网址为http://www.cs.waikato.ac.nz/ml/weka/。Weka作为一个公共的数据挖掘的平台,集成了大量的机器学习的算法,包括对数据进行预处理、分类、聚类、回归关联规则等。Weka支持可视化界面操作以及API方式的调用,本文采用API调用方式,基于Weka中集成的KNN算法进行文本分类。
2013-11-30 21:07:05 12314 2
原创 基于权值的句子情感分析
主要目的是以句子为基本单位,判断句子的情感状态。主要思路是对于句子中的每个词语,根据一定规则赋予权值,统计句子所包含的所有词语的权值之和,若权值为正,则表示句子的情感状态为积极的,若句子的权值为负,则表示句子的情感状态为负,若为0表示中立的句子。 具体的步骤分为:1.语料预处理 读入的语料可以是包含单个句子的文本也可以是多个句子的文本,对输入的语料进行分
2013-11-30 00:39:08 2823
原创 使用VNC连接Ubuntu Server 12.10无法输入字母D
新装了一台虚拟机,采用VNC在win7环境下使用Ubuntu12.10,后来发现一个问题,在Ubuntu中无法输入字母D,立刻显示桌面,怀疑在输入字母D时被Ubuntu识别为显示桌面的快捷键了,于是查找Ubuntu快捷键的设置地方,解决方法如下。在终端中输入如下内容:sudo apt-get install compizconfig-settings-manager安装成功后再输入:
2013-11-27 19:00:16 2979
原创 采用Stanford Parser进行中文语法解析
Stanford Parser是由StanforsNLP Group开发的基于Java的开源NLP工具,支持中文的语法分析,当前最新的版本为3.3.0,下载地址为:http://nlp.stanford.edu/software/lex-parser.shtml。下载后解压。解压文件中lexparser-gui.bat进行可视化页面运行,解析需要的模型文件存放在stanford-parser-3.
2013-11-21 19:26:14 28856 7
原创 对<String,Double>类型的Map根据Value数值由大到小排序
在实际中经常用到对类型的Map根据Value数值由大到小排序,可是每次都记不住代码,需要花好长时间去查找,现在放在这里,方便以后查找。 List> wordMap = new ArrayList>(patternScoresMap.entrySet()); Collections.sort(wordMap, new Comparator>() {//根据value排序
2013-11-17 16:47:19 3075
原创 自然语言处理(NLP)常用开源工具总结----不定期更新
学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具,在这里做一下汇总方便自己以后学习,其中有自己使用过的也有了解不是很多的,对于不甚了解的工具以后学习熟悉了会做更新的。1.IKAnalyzerIK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始,IK Analyzer已经推出了多个版本,当前最新版本为20
2013-11-14 20:07:45 31893 2
原创 基于Gate的ANNIE插件的中文信息抽取
在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。 ANNIE是Gate中用于英文信息抽取的插件,可以实现英文中的诸如命名实体识别等任务。要想处理中文信息需要对ANNIE进行扩展,包括扩展词表以及规则。ANNIE的主要词表为主目录是ANNIE\reso
2013-11-07 17:35:59 5027 3
原创 基于Gate的中文信息抽取API调用方式--未成功
学习Gate快一周了,一直在看官方的英文文档,却一直收获不到,想在自己的程序中通过API的方式实现调用Gate完成信息抽取。Gate中的ANNIE可以实现英文的命名实体识别,但是却不支持中文,后来发现Gate提供了中文的插件即放于目录plugins下的Lang_Chinese文件夹中的内容,并且提供了分词的功能,然后尝试了一下,具体思路如下。1.设置Gate的home等系统变量。2.调
2013-11-05 17:59:46 4512 6
NTKO_OFFICE文档控件JavaScript编程指南
2011-09-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人