- 博客(5)
- 资源 (12)
- 收藏
- 关注
原创 关于文章说明
csdn的博客类型只有三种选择:原创、转载、翻译。标注原创的文章绝不是转载和翻译的,但也不能完全算是原创。姑且认为半原创了,文中的图和语句直接摘录别人的有不少。基本上直接给出了参考URL地址。技术是不断更新的,但是他人的文章可能发表了好几年,一路做下来也出现了不少问题。我写的文章更多的记录了学习历程和出现的问题。最后,本人一直有做学习笔记习惯,但是没有发博客的习惯(近期才开始把原来
2015-11-16 16:02:34 666
原创 基于NLPIR的lucene 自定义Analyzer实现类
词法分析是lucene的一个模块,lucene自带的分词器(analyzer)一般效果不是很理想。现在项目中用的分词工具是北京理工大学的NLPIR,但是NLPIR没有一个现成的lucene分词器(analyzer)实现类。这里就需要自己来写一个比较简短的基于NLPIR的analyzer实现类。不同的Analyzer就是组合不同的Tokenizer和TokenFilter得到最后的TokenSt
2015-11-26 16:35:28 2469 1
原创 java调用R 画词云
一直想找个java包画词云,但是网上并没有什么现成方案。在github上用关键词wordcloud搜一下,发现用java开发的没有比较好的开源项目(获得星星都很少,最多也就个位数)。但是又想在java项目上用上词云,考虑了一下,还是用java调取R语言的wordcloud包来画词云,然后用swing界面显示。下面给出基本步骤:1. java与R的通信,网上的步骤很多,这里不做具体讲解,这里
2015-11-17 14:16:53 4840 6
原创 自己理解的GMF
GMF概况:GMF该框架是一个Eclipse建模项目的子项目,其目标是为Eclipse建模框架EMF和图形化编辑框架GEF提供一个统一的桥梁。GMF的一个目标就是允许一个图形化定义可以被很多领域复用。通过使用一个独立的映射模型来将图形定义和工具定义连接到所选择的领域模型,GMF漂亮的完成了这一目标。GEF与EMF: EMF的主要功能就是根据领域知识,配置xml,通过工具自动生成领域模
2015-11-16 15:25:56 4106 2
原创 数据归一化和相似性
数据分析学习小结两种常用的归一化方法参考:http://www.cnblogs.com/chaosimple/archive/2013/07/31/3227271.html数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数
2015-11-16 00:34:58 7203
spark 基础讲解ppt
2016-11-13
基于NLPIR的lucene analyzar简单实现
2015-11-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人