自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Spark Streaming + Kafka整合

两种常用的Spark Streaming和Kafka整合方法: 1. CreateStream: 传统方法,使用了接收器和Kafka的高阶API 接收器接收到的数据被存在Spark executors中,随后streaming的任务会处理数据。 缺点:会丢失数据,除非设置streaming的write ahead logs 2. CreateDirectStream: 新方法,不使用接...

2018-03-24 10:30:30 738 1

原创 Flume 与 Kafka 整合连接

Flume从一个java程序接受随机生成的数据,并传至kafka,java程序通过http协议连接flume把flume安装目录下的配置文件复制一份到任意路径如:/home/hadoop/flume.conf 进入文件修改: vi /home/hadoop/flume.conf# Define a memory channel called ch1 on agent1agent.cha...

2018-03-23 11:59:21 1618

原创 Zookeeper官方文档学习笔记

Zookeeper是一个为分布式应用服务的分布式协作服务:应用程序可以使用它的服务来同步,维护配置,分组和命名设计目标:简洁:分布式程序可以通过namespace协作,zookeeper的数据是存在内存中的,所以可以实现高吞吐和低冗余重复:zookeeper在一组主机(ensemble)上被复制 这些server彼此知道,Clients连在Server上,并维持一个TCP...

2018-03-23 10:50:31 411

原创 Kafka 官方文档学习笔记 -- 启动配置kafka单点/多点集群 自带zookeeper管理

官方文档上quick start部分对kafka在单节点的不同端口上的运行和合作已经描述的非常详细,但是没有多节点集群的配置操作。本文在整合总结官方文档的启动部分的基础上,新增了构建配置多机器kafka集群,并使用自行安装的zookeeper管理的详细方法。Quick start部分start the server启动zookeeperkafka自带单点的zookeep...

2018-03-18 16:10:04 2148 1

原创 Kafka 官方文档学习笔记 -- introduction篇

IntroductionKafka 是一个分布式流平台:发布和订阅记录流,像消息队列/系统容错持久地存储记录流有记录流出现时处理kafka概念:kafka是在多个服务器上以集群方式运行,并有多个数据中心记录流存储在叫topics的类别里每个记录包含了一个key,一个value和一个时间戳4个APIs:Producer API : 允许程序发布1个数...

2018-03-16 15:22:41 244

原创 Idea创建maven工程 上传提交Spark运行 WordCount 配置依赖插件文件 全步骤

创建maven工程首先安装apache maven,选择maven工程 GroupId和ArtifactId是自己设置,通常ArtifactId就是项目名 直接点finish File -> Project Structure -> Global Libraries里面确认scala版本 看一下现在的目录结构,可以将java改成scala(如果两种语言都有就...

2018-03-14 13:57:54 853

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除