![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Storm
zhaoxiaoba123
这个作者很懒,什么都没留下…
展开
-
Storm整合Elasticsearch
EsIndexBolt将元组直接流到Elasticsearch。元组以指定的索引和类型组合进行索引。用户应确保EsTupleMapper可以从输入元组中提取“源”,“索引”,“类型”和“ id”。“索引”和“类型”用于标识目标索引和类型。“源”是JSON格式字符串的文档,将在Elasticsearch中建立索引。EsConfig esConfig = new EsConfig(clusterName, new String[]{“localhost:9300”});EsTupleMapper tuple原创 2020-09-16 01:06:18 · 528 阅读 · 0 评论 -
Strom整合Hbase
当您需要对大数据进行随机,实时的读/写访问时,请使用Apache HBase™。该项目的目标是在商品硬件群集上托管超大型表-数十亿行X数百万列。Apache HBase是一个开源的,分布式的,版本化的,非关系型数据库,其仿照Chang等人的Google的Bigtable:结构化数据的分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似于Bigtable的功能。9、Hbase环境快速搭建安装解压:tar -zx原创 2020-09-16 01:05:15 · 182 阅读 · 1 评论 -
Strom整合HDFS
以下示例将以竖线(“ |”)分隔的文件写入HDFS路径hdfs:// localhost:54310 / foo。每1,000个元组之后,它将同步文件系统,使该数据对其他HDFS客户端可见。当文件大小达到5兆字节时,它将发送文件。http://storm.apache.org/releases/2.2.0/storm-hdfs.html6、HDFS环境快速开发参考:hadoop\1、hadoop篇\1-3分布式文件系统HDFS\hadoop安装7、Storm整合HDFS编程开发package co原创 2020-09-16 01:04:26 · 118 阅读 · 0 评论 -
Storm整合jdbc
JDBC的Storm / Trident集成。该软件包包括核心bolts和trident状态,它们允许storm topology.在数据库表中插入strom元组或对数据库执行选择查询,并丰富storm topology.中的元组。具体核心概念查看:http://storm.apache.org/releases/2.2.0/storm-jdbc.html4、Storm整合jdbc开发package com.imooc.bigdata.integration.jdbc;import com.goog原创 2020-09-16 01:03:25 · 129 阅读 · 0 评论 -
Storm整合Redis
1、Storm整合Redis使用概述Redis是一种开放源代码(BSD许可)的内存中数据结构存储,用作数据库,缓存和消息代理。 它支持数据结构,例如字符串,哈希,列表,集合,带范围查询的排序集合,位图,超级日志,带有半径查询和流的地理空间索引。 Redis具有内置的复制,Lua脚本,LRU驱逐,事务和不同级别的磁盘持久性,并通过Redis Sentinel和Redis Cluster自动分区提供高可用性。1.1、redis安装:解压到app目录redis-3.0.6.tar.gztar -zxvf原创 2020-09-16 01:01:46 · 168 阅读 · 0 评论 -
storm DRPC
1、RPC原理图解2、基于Hadoop的RPC实现3、StormDRPC概述分布式RPC(DRPC)背后的思想是使用Storm实时并行处理真正密集的函数。Storm拓扑接受函数参数流作为输入,并为这些函数调用中的每一个发出结果输出流。DRPC并不是Storm的功能,它是一种由Storm的streams,spouts,bolts和tologies的原语表达的模式。DRPC可能被打包为与Storm分开的单独的库,但是它是如此有用,以至于它与Storm捆绑在一起。4、Storm Local原创 2020-09-16 00:58:19 · 142 阅读 · 0 评论 -
storm可靠性
1、Storm进程容错性Storm有几个不同的守护进程,nimbus安排工人发射和杀死worker的supervisors,允许访问日志的日志查看器,以及显示群集状态的UI。1.1、worker死掉了怎么办?当worker死亡时,supervisors会重新启动他,如果连续启动失败,并且无法像nimbus发射心跳信息,nimbus将从新安排工作进程1.2、当一个节点死亡时会发生什么?分配给该机器的任务将超时,nimbus会将这些任务重新分配给其他机器1.3、当nimbus或supervisor守原创 2020-09-16 00:50:30 · 203 阅读 · 0 评论 -
storm分组策略
1、Stream Grouping概述随机分组:元组以一定方式随机分布在螺栓任务上,从而确保每个螺栓都具有相等数量的元组。字段分组:流按分组中指定的字段进行分区。例如,如果流按“ user-id”字段分组,则具有相同“ user-id”的元组将始终执行相同的任务,但是具有不同“ user-id”的元组可能会执行不同的任务。部分密钥分组:流按分组中指定的字段进行分区(如“字段”分组),但在两个下游螺栓之间进行负载平衡,当输入数据倾斜时,可以更好地利用资源。本文对它的工作原理和优点提供了很好的解释。全部原创 2020-09-15 23:19:01 · 484 阅读 · 0 评论 -
Storm并行度
1、并行度概念详解一个辅节点就是一个Supervisor 可以启动多个worker–每个worder又可以启动多个executors,每个executors里面又可以有一个或者多个tasks每个topologies可以运行在多个worker上,但是每个worker只能单独为一个topologies服务spout/bolt就是运行在tasks上的,tasks是storm里的最小单元2、如果将Storm集群模式更改为单机模式注视掉这两块就变成单机的了3、Strom作业运行UI上的参数详解4原创 2020-09-15 23:15:45 · 136 阅读 · 0 评论 -
Storm架构及部署
1、Storm架构详解2、Storm单机部署之前置条件及解压3、Storm单机部署之启动Storm各个节点及StormUI界面部署3.1、修改apache-storm-1.1.1/conf/storm-env.sh文件增加JDK路径参数export JAVA_HOME=/home/storm/app/jdk1.8.0_91注意:这里启动的zookeeper是storm内置的,启动按照顺序启动ui界面地址:ip:80804、改写Storm作业并提交到Storm单节点集群运行4.1、原创 2020-09-15 23:10:11 · 1398 阅读 · 0 评论 -
Storm周边框架的使用
1、JDK安装2、Zookeeper概述及环境搭建下载ZK的安装包:http://archive.cloudera.com/cdh5/cdh/5/Apache ZooKeeper致力于开发和维护可实现高度可靠的分布式协调的开源服务器。什么是ZooKeeper?ZooKeeper是一项集中式服务,用于维护配置信息,命名,提供分布式同步以及提供组服务。所有这些类型的服务都以某种形式或由分布式应用程序使用。每次实施它们时,都会进行很多工作来修复不可避免的错误和竞争条件。由于难以实现这类服务,因此应用程原创 2020-09-15 22:55:05 · 204 阅读 · 0 评论 -
Storm编程
1、Storm的开发环境搭建1.1、安装JDK 1.8 jdk-8u231-macosx-x64.dmg 直接安装就好1.2、安装完后把路径配置到环境变量JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_231.jdk/Contents/HomePATH=JAVAHOME/bin:JAVA_HOME/bin:JAVAHOME/bin:PATH1.3、Maven 安装 apache-maven-3.6.3-bin.tar.gztar -原创 2020-09-15 22:45:52 · 260 阅读 · 0 评论 -
Storm核心的概念
1、初识Sortm的核心概念Topologies:拓扑,将整个流程串起来 \ Streams:流,数据流,水流 \ Spouts:生产数据/生产水Bolts:处理数据/处理水 \ Tuple:数据/水 \ Stream groupings:流分组Reliability:可靠性 \ Tasks:任务 \ Workers:工人2、Storm核心概念理解记忆概述3、Storm核心概念理解记忆之地铁运行模型4、Storm核心概念理解记忆之Storm5、Storm核心小结6原创 2020-09-15 22:35:41 · 336 阅读 · 0 评论 -
初识实时流处理Storm
1、Storm是什么?Apache Storm是一个免费、开源、分布式、实时计算系统。通过Apache Storm,可以轻松可靠地处理无限制的数据流,从而可以进行实时处理,而Hadoop可以进行批处理。Apache Storm很简单,可以与任何编程语言一起使用,并且使用起来很有趣!Apache Storm具有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。Apache Storm速度很快:基准测试表明它每秒可处理每个节点超过一百万个元组。它具有可扩展性,容错性,可确保您的数据将得原创 2020-09-15 22:31:50 · 259 阅读 · 0 评论