大数据
文章平均质量分 74
xixihaha_123
这个作者很懒,什么都没留下…
展开
-
浅谈大数据平台演变(转)
一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。Hadoop能够满足大部分的离线存储和离线...原创 2015-09-21 22:51:53 · 141 阅读 · 0 评论 -
JStorm介绍
一、简介Storm是开源的分布式容错实时计算系统,目前被托管在GitHub上,遵循 Eclipse Public License 1.0。最初由BackType开发,现在已被Twitter收入麾下。Storm最新版本是Storm 0.9,核心采用Clojure实现。Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息;Storm也可被用于“连续计算”(continu...原创 2016-03-15 17:56:59 · 176 阅读 · 0 评论 -
JStorm之Supervisor简介
一、简介Supervisor是JStorm中的工作节点,类似于MR的TT,subscribe zookeeper的任务调度结果数据,根据任务调度情况启动/停止工作进程Worker。同时Supervisor需要定期向zookeeper写入活跃端口信息以便Nimbus监控。Supervisor不执行具体处理工作,所有的计算任务都交Worker完成。从整个架构上看,Supervisor处在整个JSto...原创 2016-03-15 18:02:30 · 221 阅读 · 0 评论 -
jstorm操作命令
启动ZOOPKEEPERzkServer.sh start启动NIMBUSjstorm nimbus &启动SUPERVISORjstorm supervisor &启动UIjstorm ui &部署TOPOLOGYjstorm jar /opt/hadoop/loganalyst/storm-dependend/data/teststorm-1.0.jar t...原创 2016-03-15 18:04:06 · 739 阅读 · 0 评论 -
jstorm源码之TridentTopology
在jstorm中对应TridentTopology的源码如下,TridentTopology的主要作用是用来创建trident的一、一般使用的方式如下// 1、创建一个topology对象TridentTopology topology = new TridentTopology();// 2、设置相关参数: each分片、group by分组、聚合aggregate// 返...原创 2016-03-16 18:12:12 · 286 阅读 · 0 评论 -
jstorm源码之 RichSpoutBatchExecutor
一、作用RichSpoutBatchExecutor是IRichSpout及其子类Spout的executor执行器;主要包括: 1、RichSpoutEmitter :用户tuple的emit 2、RichSpoutCoordinator:用于spout的调度 3、CaptureCollector: 用于获取spout的collect的f...原创 2016-03-21 19:24:44 · 181 阅读 · 0 评论 -
jstorm源码之RotatingMap
一、作用 基于LinkedList + HashMap实现一个循环Map二、源码// 通过结合LinkedList 和 HashMap 构成一个循环Map数据结构 public class RotatingMap { // this default ensures things expire at most 50% past the expiration tim...原创 2016-03-21 19:27:23 · 150 阅读 · 0 评论 -
jstorm源码之PartitionedTridentSpoutExecutor
一、作用 Partition Spout对应的executor二、源码分析package storm.trident.spout;import backtype.storm.task.TopologyContext;import backtype.storm.tuple.Fields;import java.util.ArrayList;import java...原创 2016-03-21 19:28:34 · 157 阅读 · 0 评论 -
jstorm源码之RotatingTransactionalState
一、作用 构建一个Rotationg transaction的state类 用于完成partition的state管理及操作二、源码分析package storm.trident.topology.state;import backtype.storm.utils.Utils;import org.apache.zookeeper.KeeperException;...原创 2016-03-21 19:29:30 · 157 阅读 · 0 评论 -
jstorm安装
关于jstorm单机安装可以参看如下http://hexiaoqiao.sinaapp.com/2014/06/jstorm%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA/https://github.com/alibaba/jstorm/wiki/%E5%A6%82%E4%BD%95%E5%AE%89%E8%A3%85这些是本人在安装过程具体的安装过程以及问...原创 2015-12-03 19:43:07 · 205 阅读 · 0 评论 -
spring hadoop系列(六)---HbaseSystemException
一、源码/** * HBase Data Access exception. * @author Costin Leau */@SuppressWarnings("serial")public class HbaseSystemException extends UncategorizedDataAccessException { public HbaseSyste...原创 2015-11-30 09:13:42 · 325 阅读 · 0 评论 -
spring hadoop系列(五)---spring hadoop hbase之HbaseSynchronizationManager
一、源码如下/** * Synchronization manager handling the tracking of Hbase resources (specifically tables). Used either manually or through {@link HbaseInterceptor} to bind a table to the thread. * Each...原创 2015-11-27 18:16:39 · 136 阅读 · 0 评论 -
hadoop2.6.1单机安装
centos6.6安装hadoop2.6.1操作步骤 大致如下1.安装JDK1.1下载上传jdk-7u79-linux-i586.rpm1.2安装rpm -ivh jdk-7u79-linux-i586.rpm1.3将java添加到环境变量中vim /etc/profile#在文件最后添加export JAVA_HOME=/usr/java/jdk1.7...原创 2015-10-22 17:12:31 · 122 阅读 · 0 评论 -
Hadoop+Hbase+Zookeeper(独立)环境搭建 ---(转)
准备的机器信息:192.168.247.128 dengnn(master) 192.168.247.129 dengdn1 (slave1) 192.168.247.130 dengdn2 (slave2)集群搭建 参考资料 cloudera hadoop 搭建http://heylinux.com/archives/1980.htmlhttp://www.ibm.com/deve...原创 2015-10-23 08:34:48 · 142 阅读 · 0 评论 -
spring hadoop系列一
一、要求1、对于spring hadoop2.1构建在jdk7上面(最低要求:jdk6及其以上),hadoop 2.6 默认构建在spring framework 4.1上。2、spring for Apache hadoop2.1支持如下hadoop版本 Apache Hadoop 2.4.1 Apache Hadoop 2.5.2 Apache Hadoop 2...原创 2015-11-05 23:18:37 · 239 阅读 · 0 评论 -
spring hadoop系列二(MapReduce and Distributed cache)
关于MapReduce and Distributed Cache一、创建Hadoop Job在前面的系列一里面我们已经知道如何配置hadoop了,在完成配置工作之后,我们如何提交job,并运行这些job将是接下来我们讲述的使用SHDP创建job是相当简单的<hdp:job id="mr-job" 指定jod id ...原创 2015-11-06 15:22:50 · 117 阅读 · 0 评论 -
centos6.7 64位 伪分布 安装 cdh5.4.8 + jdk 8
一、安装JAVA# 创建JAVA的目录mkdir -p /usr/java cd /usr/java#将下载的rpm包移到此目录#执行安装rpm -ivh jdk-8u65-linux-x64.rpm (对应你的rpm)#增加环境变量vim /etc/profile修改profile 最后面加入export JAVA_HOME=/usr/java/jdk1...原创 2015-11-09 00:37:17 · 132 阅读 · 0 评论 -
spring hadoop之mapreduce batch
一、测试// 定义hadoop configurationConfiguration conf = new Configuration();// 指定hdfs上获取分析文件目录和输出分析结果目录// 格式:hdfs://10.33.96.241:8020/user/tweets/input// hdfs://10.33.96.241:8020/user/tweets...原创 2015-11-24 15:51:39 · 197 阅读 · 0 评论 -
spring hadoop之batch处理(二)
一、测试public class MrBatchApp { // Log private static final Log log = LogFactory.getLog(MrBatchApp.class); // public static void main(String[] args) throws JobParametersInval...原创 2015-11-24 18:10:45 · 317 阅读 · 0 评论 -
spring hadoop 系列(二)
一、源码分析/** * * HbaseAccessor作为HbaseTemplate以及HbaseIntercepter的基类;同时也定义 * 公共的HBase Configuration 以及 HTableInterfaceFactory * */public abstract class HbaseAccessor implements Initializin...原创 2015-11-27 15:26:46 · 114 阅读 · 0 评论 -
jstorm源码之TransactionalState
一、作用 主要是通过结合zookeeper,在zookeeper指定的目录下创建不同的自己 代表不同的transaction state,并赋予不同的内容;通过zookeeper完成对partitions的transaction的管理二、源码分析package storm.trident.topology.state;import backtype.storm.Confi...原创 2016-03-21 19:31:57 · 188 阅读 · 0 评论