- 博客(280)
- 资源 (9)
- 收藏
- 关注
原创 我是怎样阅读技术论文的
需要通过paper获取知识,找到新的解决思路是很常见的办法。但是在工作中由于压力常常会随便找一些paper读一些,做少量的思考就开始做了,这样往往不能对研究的对象不能有一个整体的看法,做了也仅仅是做了。描绘研究对象概念的内涵和外延,描绘一个知识树,然后再去研究我们需要的那个点。下面给出了我自己的一点小经验。
2014-05-26 00:06:01 2473 5
原创 社会化网络分析
节点中心性是指网络中每个词在网络中处于什么地位。中心势反映整个词网中各个节点的差异性程度。由于计算方法的不同,节点中心度分为点度中心度,中间中心度和接近中心度。网络的中心势也分为点度中心势、中间中心势和接近中心势。 点度中心性中间中心性接近中心性绝对点度中心度
2014-05-23 17:24:29 1860 2
原创 基于领域相关度和领域一致度的领域术语抽取实现
需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。有一些数据是不完整的,甚至是脏数据,需要在数据准备好之后做数据清洗,删除包含乱码的文本、删除英文文本、删除内容重复的文档,删除包含大量HTML标签的文档,删除内容中大量重复的内容(如:预料是新闻,可能会每篇文档中都包含“中新网北京1月23日电”之类的内容)。 每一个子文件夹中都包含该领域的文档,分别
2014-05-23 17:05:33 1338
原创 Mahout 模糊kmeans
FCM 算法用一个Job寻找cluster的中心点。在map的初始化节点,加载初始化(或上一轮迭代的结果)中心点。在map中计算point 和每一个簇的亲和度。在combiner计算同一个cluster的参数,该过程只能计算同一cluster的局部信息。在reduce中首先计算同一个cluster的全局参数,然后计算该cluster是否收敛,输出cluster。
2014-05-23 15:52:27 2399
原创 Mahout kmeans聚类
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数
2014-05-23 15:41:52 3674 1
原创 Mahout canopy聚类
Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。 在执行Canopy之前需要用将文本合并,然后用Mahout文本向量化模块计算TFIDF,作为文本向量。向量化之后再用Canopy算法聚类。
2014-05-23 15:37:53 2101
原创 Mahout LDA 聚类
Dirichlet聚类是一种基于模型的聚类方法,其基本思想是初始化一些模型,并按不同比重混合起来,然后我们把数据分配到各个模型中,根据当前划分更新模型参数,不断重复数据分配和参数更新的过程,直到设定的最大迭代次数,这时得到了最终的模型参数,同时也完成了聚类任务。
2014-05-22 12:42:31 3871
原创 Mahout fp-growth
Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前,在数据挖掘领域,Apriori和FP-Growth算法的引用次数均位列三甲。参看论文《Mining Frequence PatternsWithout Candidate Generation》 。FP的全称是Frequent Pattern,在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tre
2014-05-22 11:05:36 2809
原创 Mahout朴素贝叶斯文本分类
Mahout贝叶斯分类器按照官方的说法,是按照《Tackling the PoorAssumptions of Naive Bayes Text Classiers》实现的。分为三个模块:训练、测试和分类。该文档首先简要介绍朴素贝叶斯的基本原理,然后介绍MapReduce实现的思路。
2014-05-22 10:53:33 3557
原创 Mahout决策森林
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrapaggregating" 想法和 Ho 的"randomsubspace method
2014-05-22 10:45:28 2295
原创 Mahout文本向量化
在文本聚类之前,首先要做的是文本的向量化。该过程涉及到分词,特征抽取,权重计算等等。Mahout 提供了文本向量化工具。由于Mahout 向量化算法要处理的文件是Hadoop SequenceFile ,需要将普通的文本文件转成SequenceFile格式,然后在向量化。SequenceFilesFromDirectory.main(args);
2014-05-22 10:43:02 2415
转载 词的向量表示
转自 http://licstar.net/archives/328Posted on 2013 年 7 月 29 日 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人
2014-04-30 12:59:13 11029
转载 机器翻译领域的新突破
#研究分享#【机器翻译领域的新突破】谷歌的Tomas Mikolov团队开发了一种词典和术语表的自动生成技术,能够把一种语言转变成另一种语言。该技术利用数据挖掘来构建两种语言的结构模型,然后加以对比。每种语言词语之间的关系集合即“语言空间”,可以被表征为数学意义上的向量集合。在向量空间内,不同的语言享有许多共性,只要实现一个向量空间向另一个的映射和转换,语言翻译即可实现。该技术效果非常不错,对英语
2014-04-30 12:52:15 1158
转载 Boosting和Bagging
在生成集成中个体网络方面,最重要的技术是Boosting [Sch90] 和Bagging [Bre96]。Boosting最早由Schapire [Sch90] 提出,Freund [Fre95] 对其进行了改进。通过这种方法可以产生一系列神经网络,各网络的训练集决定于在其之前产生的网络的表现,被已有网络错误判断的示例将以较大的概率出现在新网络的训练集中。这样,新网络将能够很好地处理对已有网
2014-02-11 14:30:18 863
转载 join
在oracle的SQL语句常用的连接有内连接(inner join),外连接(outer join)等,内连接又包括等值连接,非等值连接,自连接;而外连接又分为左连接和右连接。其中默认的是内连接的等值连接。 为了方便我们创建两张最简易的表A、B,具体的表结构参看下面,来分析内连接与外连接的区别 图1
2014-01-27 14:38:20 740
转载 Hadoop 的 TotalOrderPartitioner
Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认的partitioner是
2014-01-27 14:26:45 1072
转载 机器学习开源项目
研究数据挖掘和机器学习有一段时间了,对数据挖掘来说,商用软件有SAS、 Clementine、Oracle数据挖掘组件等等;由于个人学习和版权、算法定制等问题,开源的数据挖掘与机器学习软件(库)目前也十分必需,现在就跟大家介绍下比较流行和常用的机器学习开源库。 以前在学校用过matlab,说实话真方便,通常一个模型只要几十行甚至十几行代码就能搞定,但是正版matlab较贵,而且不太适合商业开
2014-01-27 09:59:00 1103
转载 java 编程性能调优
一、避免在循环条件中使用复杂表达式在不做编译优化的情况下,在循环中,循环条件会被反复计算,如果不使用复杂表达式,而使循环条件值不变的话,程序将会运行的更快。 例子: import java.util.vector;class cel { void method (vector vector) { for (int i = 0; i < vector
2014-01-27 09:36:03 960
转载 Android WebKit 内核
一、WebKit简介WebKit是一个开源的浏览器网页排版引擎,包含WebCore排版引擎和JSCore引擎。WebCore和JSCore引擎来自于KDE项目的KHTML和KJS开源项目。Android平台的Web引擎框架采用了WebKit项目中的WebCore和JSCore部分,上层由Java语言封装,并且作为API提供给Android应用开发者,而底层使用WebKit核心库(WebCore
2013-12-30 18:55:41 1212
转载 Mahout Bayes分类
实现包括三部分:The Trainer(训练器)、The Model(模型)、The Classifier(分类器)1、训练首先,要对输入数据进行预处理,转化成Bayes M/R job读入数据要求的格式,即训练器输入的数据是KeyValueTextInputFormat格式,第一个字符是类标签,剩余的是特征属性(即单词)。以20个新闻的例子来说,从官网上下载的原始数据是一个分类目录,下面
2013-12-30 12:20:04 950
hbase 表重命名
hbase shell> disable 'tableName'hbase shell> snapshot 'tableName', 'tableSnapshot'hbase shell> clone_snapshot 'tableSnapshot', 'newTableName'hbase shell> delete_snapshot 'tableSn...
2013-12-29 12:06:40 260
原创 HBase 快照操作
1.配置hbase-site.xml hbase.snapshot.enabled true 2.创建快照 hbase> snapshot 'myTable', 'myTableSnapshot-122112' hbase>list_snapshots 3.删除快照delete_snapshot 'myTableSnapshot-122112'4.克隆快照hbas
2013-12-29 05:25:11 1714
原创 HBase表重命名
hbase shell> disable 'tableName'hbase shell> snapshot 'tableName', 'tableSnapshot'hbase shell> clone_snapshot 'tableSnapshot', 'newTableName'hbase shell> delete_snapshot 'tableSnapshot'hbase shell
2013-12-29 05:18:34 3844
原创 HBase集群部署脚本
#!/bin/bash# Sync HBASE_HOME across the cluster. Must run on master usingHBase owner user.HBASE_HOME=/usr/local/hbase/currentfor rs in `cat $HBASE_HOME/conf/regionservers`doecho "Deploying
2013-12-29 05:11:51 1045
原创 hbase 集群管理脚本
#!/bin/bash# Show all running Java processes on region servers. Must run onmaster using HBase owner user.JAVA_HOME=/usr/local/jdk1.6HBASE_HOME=/usr/local/hbase/currentIFS=$'\n'printf "+---
2013-12-29 05:10:34 765
原创 Hbase replication操作
1.修改hbase-site.xml文件 hbase.replication true2.同步数据改变,重启hbase集群3.创建备份表hbae>create 'reptable1', { NAME => 'cf1', REPLICATION_SCOPE =>1}3.hbase> add_peer '1', 'l-master1:2181:/hbase'4.
2013-12-29 05:08:57 1035
转载 HBase replication
Hbase Replication 介绍现状 Hbase 的replication目前在业界使用并不多见,原因有很多方面,比如说HDFS目前已经有多份备份在某种程度上帮助HBASE底层数据的安全性,而且很多公司的集群规模比较小并且对数据重要程度并不是很高,比如一些日志系统或者是作为一个历史数据的第二个仓库,来分流大量的读请求。这样及时数据丢失了也可以在其他的地方(数据库集群)中找回
2013-12-29 04:48:57 1199
原创 Hbase 备份的方式
HBase 备份的方式有三种:1.下线备份 (1)停止集群。 (2)Distcp (3)restore2.在线备份 -replication 3.在线北大 -CopyTable 4.在线备份-Export
2013-12-29 04:43:31 940
原创 Hbase节点管理
1.退役节点 shell>balance_switch false 然后,hbase-daemon.sh stop regionserverdfs.datanode.failed.volumes.tolerated > 0
2013-12-29 04:31:25 1987
原创 HBase提供的工具
1 .压缩测试工具 hbase org.apache.hadoop.hbase.util.CompressionTest 1G数据不同的压缩算法得到的结果+--------------------+--------------+| MODIFIER | SIZE (bytes) |+--------------------+--------------+
2013-12-29 03:47:17 2398
原创 HBase 健康检查工具
在HBase运维中 最常用的工具就是hbck. 查看整个集群的表状况。如果region很多,建议慎重使用,会比较慢,而采用(3)。(1)hbase hbck 详细显示集群状况。 (2)hbase hbck -details 显示指定表的状况。 (3) hbase hbck testtable1 testtable2 定位问题。 (
2013-12-29 03:07:18 4688
原创 HBase Canary
HBase Canary 用于检测HBase 系统的状态。它对指定表的每一个region 抓取一行,来探测失败或者延迟。 hbase org.apache.hadoop.hbase.tool.Canary -help Usage: bin/hbase org.apache.hadoop.hbase.tool.Canary [opts] [table1 [table2].
2013-12-29 02:34:18 3884 1
原创 HBase Bulk Loading
将数据导入到HBase有三种方式:(1) Mapreduce,输出为TableOutputFormat.(2) 用HBase API .(3)Bulk Loading。对于大量的数据入库,第三种数据是最为有效的。 下图描述了Bulk Loading的过程:先将数据(MySQL ,Oracle ,文本文件等)加载到HDFS,通过MapReduce 将数据做成HFile (HFileOutPut
2013-12-29 02:11:07 1739
转载 HBase 运维分析
问题分析的主要手段1、监控系统:首先用于判断系统各项指标是否正常,明确系统目前状况2、服务端日志:查看例如region移动轨迹,发生了什么动作,服务端接受处理了哪些客户端请求。3、gc日志:gc情况是否正常4、操作系统日志和命令:操作系统层面、硬件是否故障,当前状况如何5、btrace:实时跟踪目前服务端的请求和处理情况6、运维工具:通过内置于系统中的功能,查看服务器实时处
2013-12-29 00:06:23 1211
原创 HBase rest
HBase Rest 是建立在HBase java 客户端基础之上的,提供的web 服务。它存在的目的是给开发者一个更多的选择。1.启动rest 服务 (1)hbase rest start 用默认的方式启动rest服务,端口是8080。 (2)hbase rest start 8585 这种方式以端口8585方式启动。 (3)
2013-12-28 23:26:11 3640
jfreechart API
2010-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人