2014年05月_mark_yueye

10月 05月 04月 02月 01月

原创我是怎样阅读技术论文的

需要通过paper获取知识，找到新的解决思路是很常见的办法。但是在工作中由于压力常常会随便找一些paper读一些，做少量的思考就开始做了，这样往往不能对研究的对象不能有一个整体的看法，做了也仅仅是做了。描绘研究对象概念的内涵和外延，描绘一个知识树，然后再去研究我们需要的那个点。下面给出了我自己的一点小经验。

2014-05-26 00:06:01 2474 5

原创社会化网络分析

节点中心性是指网络中每个词在网络中处于什么地位。中心势反映整个词网中各个节点的差异性程度。由于计算方法的不同，节点中心度分为点度中心度，中间中心度和接近中心度。网络的中心势也分为点度中心势、中间中心势和接近中心势。点度中心性中间中心性接近中心性绝对点度中心度

2014-05-23 17:24:29 1861 2

原创基于领域相关度和领域一致度的领域术语抽取实现

需要准备几个领域，每个领域准备大量的文本。比如：军事、科技、体育、财经、汽车、房产等等。有一些数据是不完整的，甚至是脏数据，需要在数据准备好之后做数据清洗，删除包含乱码的文本、删除英文文本、删除内容重复的文档，删除包含大量HTML标签的文档，删除内容中大量重复的内容（如：预料是新闻，可能会每篇文档中都包含“中新网北京1月23日电”之类的内容）。每一个子文件夹中都包含该领域的文档，分别

2014-05-23 17:05:33 1340

原创 Mahout 模糊kmeans

FCM 算法用一个Job寻找cluster的中心点。在map的初始化节点，加载初始化（或上一轮迭代的结果）中心点。在map中计算point 和每一个簇的亲和度。在combiner计算同一个cluster的参数，该过程只能计算同一cluster的局部信息。在reduce中首先计算同一个cluster的全局参数，然后计算该cluster是否收敛，输出cluster。

2014-05-23 15:52:27 2403

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致，值得注意的是，Mahout将数据存储在HDFS，用MapReduce做批量并行的计算。在做kmeans之前，需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤：初始中心选取，寻找簇中心，划分数

2014-05-23 15:41:52 3675 1

原创 Mahout canopy聚类

Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后，可以删除那些包含数据点数目较少的canopy，往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。在执行Canopy之前需要用将文本合并，然后用Mahout文本向量化模块计算TFIDF，作为文本向量。向量化之后再用Canopy算法聚类。

2014-05-23 15:37:53 2103

原创 Mahout LDA 聚类

Dirichlet聚类是一种基于模型的聚类方法，其基本思想是初始化一些模型，并按不同比重混合起来，然后我们把数据分配到各个模型中，根据当前划分更新模型参数，不断重复数据分配和参数更新的过程，直到设定的最大迭代次数，这时得到了最终的模型参数，同时也完成了聚类任务。

2014-05-22 12:42:31 3873

原创 Mahout fp-growth

Apriori算法的一个主要瓶颈在于，为了获得较长的频繁模式，需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前，在数据挖掘领域，Apriori和FP-Growth算法的引用次数均位列三甲。参看论文《Mining Frequence PatternsWithout Candidate Generation》。FP的全称是Frequent Pattern，在算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构。FP-tre

2014-05-22 11:05:36 2811

原创 Mahout朴素贝叶斯文本分类

Mahout贝叶斯分类器按照官方的说法，是按照《Tackling the PoorAssumptions of Naive Bayes Text Classiers》实现的。分为三个模块：训练、测试和分类。该文档首先简要介绍朴素贝叶斯的基本原理，然后介绍MapReduce实现的思路。

2014-05-22 10:53:33 3557

原创 Mahout决策森林

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 "Bootstrapaggregating" 想法和 Ho 的"randomsubspace method

2014-05-22 10:45:28 2296

原创 Mahout文本向量化

在文本聚类之前，首先要做的是文本的向量化。该过程涉及到分词，特征抽取，权重计算等等。Mahout 提供了文本向量化工具。由于Mahout 向量化算法要处理的文件是Hadoop SequenceFile ，需要将普通的文本文件转成SequenceFile格式，然后在向量化。SequenceFilesFromDirectory.main(args);

2014-05-22 10:43:02 2416

orange算法大全

2014-03-12

MongoDB 参考文档

2013-03-04

Cassandra权威指南(中文版)

2013-03-04

SQL和NOSQL融合

2013-03-04

统计学习基础：数据挖掘、推理与预测

2013-02-28

jfreechart API

jfreechart API 介绍 void setAntiAlias(boolean flag) 字体模糊边界 void setBackgroundImage(Image image) 背景图片 void setBackgroundImageAlignment(int alignment) 背景图片对齐方式（参数常量在org.jfree.ui.Align类中定义） void setBackgroundImageAlpha(float alpha) 背景图片透明度（0.0～1.0） void setBackgroundPaint(Paint paint) 背景色

2010-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

开心一刻的专栏

原创我是怎样阅读技术论文的

原创社会化网络分析

原创基于领域相关度和领域一致度的领域术语抽取实现

原创地球物理学部分术语共现图

原创三国人物共现网络

原创 Mahout 模糊kmeans

原创 Mahout kmeans聚类

原创 Mahout canopy聚类

原创 Mahout LDA 聚类

原创 Mahout fp-growth

原创 Mahout朴素贝叶斯文本分类

原创 Mahout决策森林

原创 Mahout文本向量化

orange算法大全

MongoDB 参考文档

Cassandra权威指南(中文版)

SQL和NOSQL融合

统计学习基础：数据挖掘、推理与预测

jfreechart API

空空如也