![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Storm
文章平均质量分 90
30岁老阿姨
从业8年Java开发,对于微服务、分布式及三维方向一直在努力着!
展开
-
大数据-Storm流式框架(八)---Storm案例
它们在同一个进程中。运行topo.KafkaOneCellMonintorTopology,从Kafka中读取数据,Storm分析之后,结果写入Hbase中存放。在conf/hbase-site.xml中,仅需要指定hbase和zookeeper写数据的本地路径。如:HBASE_ZOOKEEPER_LIST、KAFKA_ZOOKEEPER_LIST、BROKER_LIST、ZOOKEEPERS。如果手动创建了,hbase会做一个迁移,这不是我们想要的。,随机生成模拟数据,并将数据写入到Kafka中。原创 2023-10-29 20:41:08 · 193 阅读 · 0 评论 -
大数据-Storm流式框架(七)---Storm事务
storm 对于保证消息处理,提供了最少一次的处理保证。最常见的问题是如果元组可以被重发,可以用于计数吗?不会重复计数吗?strom0.7.0 引入了事务性拓扑的概念,可以保证消息仅被严格的处理一次。因此可以以完全精确的、可扩展的、容错的方式处理类似计数这类的情形。跟分布式 RPC 类似,事务性拓扑也不是 storm 的新特性,而仅仅是在 storm 原语如数据流、spout、bolt 和拓扑基础上的高层抽象。原创 2023-10-29 20:31:53 · 332 阅读 · 0 评论 -
大数据-Storm流式框架(六)---Kafka介绍
默认的消息保留策略是,要么保存一段时间(7天),要么保留消息到一定大小的字节数(1GB)。1、kafka的生产者在发送消息到kafka的时候,如果消息没有指定key,则按照轮询的策略,依次将各个消息发送给不同的主题的分区。最简单的例子,为键生成一个一致性散列值,然后使用散列值对主题分区进行取模,为消息选择分区。分区器为消息的键生成一个散列值,映射到指定的分区上。,紧凑的序列化格式,模式和消息体分开,支持强类型和模式进化,版本前后兼容。broker接收来自生产者的消息,为消息设置偏移量,提交消息到磁盘保存。原创 2023-10-27 16:43:30 · 1176 阅读 · 1 评论 -
大数据-Storm流式框架(五)---DRPC
随后拓扑会执行函数来计算结果,并在拓扑的最后使用一个名为 ReturnResults 的 bolt 连接到 DRPC 服务器,根据函数调用的 id 来将函数调用的结果返回。我们将看到的示例是在Twitter上计算URL的范围。DRPC Server 负责接收 RPC 请求,并将该请求发送到 Storm中运行的 Topology,等待接收 Topology 发送的处理结果,并将该结果返回给发送请求的客户端。DRPC并不是Storm的一个特征,因为它基于Storm的spouts,bolts和拓扑的高级抽象。原创 2023-10-27 16:30:48 · 182 阅读 · 0 评论 -
大数据-Storm流式框架(四)---storm容错机制
spout发射元组的时候会给合适的acker发送一个消息表示对哪个spout的元组负责。storm的拓扑中提供了一组acker用于追踪spout发射的每个元组及其衍生的元组,一旦发现DAG处理完了,就同创建该元组的spout进行确认。ack val代表了该元组树的状态,不管spout发射的元组及其衍生的元组有多少,它仅仅是对所有创建的元组以及确认的元组id求。某个元组的id和该64bit的数字异或结果是0的情况极其少见,比如每秒处理10k的元组,需要5000万年才会产生一个错误,造成数据丢失。原创 2023-10-26 14:07:12 · 230 阅读 · 0 评论 -
大数据-Storm流式框架(二)--wordcount案例
storm软件包中lib目录下的所有jar包。原创 2023-10-25 12:13:18 · 1282 阅读 · 0 评论 -
大数据-Storm流式框架(一)
实时的分布式高容错。原创 2023-10-25 11:17:11 · 855 阅读 · 0 评论