![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
小猴子豆芽菜
一名90后程序猿,现就任于ThoughtWorks,从事软件开发、大数据开发,同时也是一位健身、羽毛球爱好者。
展开
-
Hive On Tez 进度条不显示问题修复
===========原创 2020-09-10 09:36:26 · 1842 阅读 · 0 评论 -
Pulsar configuration 介绍:ZooKeeper相关参数
Pulsar configuration本篇博文主要介绍Pulsar configuration中有关zookeeper的参数。ZookeeperZookeeper在Pulsar中扮演着重要的角色,主要用于处理各种必须的配置以及各组件间协调性相关的task;Pulsar中的默认配置文件为:conf/zookeeper.conf参数名含义默认值tickTime...翻译 2020-03-04 22:22:56 · 1299 阅读 · 0 评论 -
Kafka源码阅读(二):Producer Metadata概述及源码分析
上一篇博文Kafka源码阅读(一):Kafka Producer整体架构概述和源码分析(一)介绍了Kafka 生产者发送消息的主要流程和计算分区等机制,接下来这篇博文将对Kafka更新Producer Metadata的机制进行讲解说明。Metadata什么是metadatametadata指Kafka集群的元数据,包含了Kafka集群的各种信息,例如如:集群中有哪些节点;集群中有...原创 2020-02-20 22:54:20 · 866 阅读 · 0 评论 -
Kafka源码阅读(一):Kafka Producer整体架构概述及源码分析
整体架构线程 整个 Kafka 客户端由两个线程协调运行,即Main线程和Sender线程。 在Main线程中由KafkaProducer创建消息,然后通过Interceptor、Serializer和...转载 2020-02-20 22:51:39 · 600 阅读 · 0 评论 -
Kafka消费者消费方式
consumer消费方式pull模式,consumer从Broker中主动拉取数据pull模式不足之处:如果 kafka 没有数据,消费者可能会陷入循环中,一直返回空数据。针对这一点,Kafka 的消费者在消费数据时会传入一个时长参数 timeout,如果当前没有 数据可供消费,consumer 会等待一段时间之后再返回,这段时长即为 timeout。push模式,由Broker推送...原创 2020-02-04 21:19:42 · 2117 阅读 · 0 评论 -
Kafka生产者分区策略和数据可靠性保证
分区策略分区原因:方便集群扩展,每个Partition可以通过调整大小以适应它所在的机器,而一个 topic又可以由多个 Partition组成,因此整个集群就可以适应任意大小的数据。可以提高并发,分区之后就可以以Partition为单位读写。分区原则:我们需要将 producer 发送的数据封装成一个 ProducerRecord 对象。指明 partition 的情况下,直...原创 2020-02-04 19:57:10 · 1235 阅读 · 0 评论 -
Kafka工作流程及文件存储机制
Kafka工作流程Kafka 中消息是以 topic 进行分类的,生产者生产消息,消费者消费消息,都是面向 topic 的。topic 是逻辑上的概念,而 partition 是物理上的概念。每个partition都有对应的.log文件,该 log 文件中存储的就是 producer 生产的数据。producer生产的数据会发送给topic的每个partition,并追加到parti...原创 2020-02-04 15:52:07 · 321 阅读 · 0 评论 -
Kafka基础架构
Kafka基础架构消息队列的两种模式1. 点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)过程:producer将消息发送到queue中;consumer从queue中拉取并消费message;message从queue中删除特点:一个queue可以有多个consumer;一个message只会被一个consumer消费;2. 发布/订阅模式...原创 2020-02-03 21:50:37 · 1800 阅读 · 0 评论 -
Hadoop介绍
Hadoop概念Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。Hadoop是一套开源的软件平台,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。Hadoop框架透明地为应用提供可靠性和数据移动,还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系...原创 2019-01-12 19:00:39 · 231 阅读 · 0 评论