自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(174)
  • 收藏
  • 关注

原创 UseZookeeperManageOffset【Java版纯代码】

package com.manage;import java.util.Map;import org.apache.log4j.Logger;import org.apache.spark.streaming.api.java.JavaStreamingContext;import com.manage.getOffset.GetTopicOffsetFromKafkaBroker;...

2018-07-31 20:11:37 205

原创 ProjectUtil【Java版纯代码】

package com.manage;import java.io.IOException;import java.io.InputStream;import java.util.Properties;import org.apache.log4j.Logger;import org.apache.log4j.PropertyConfigurator;public class P...

2018-07-31 20:10:38 233

原创 GetTopicOffsetFromKafkaBroker【Java版纯代码】

package com.manage.getOffset;import java.util.Arrays;import java.util.HashMap;import java.util.Map;import java.util.Map.Entry;import java.util.Set;import com.google.common.collect.ImmutableMap...

2018-07-31 20:08:48 169

原创 GetTopicOffsetFromZookeeper【Java版纯代码】

package com.manage.getOffset;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Map.Entry;import java.util.Set;import org.apache.curator.framework.CuratorFram...

2018-07-31 20:07:21 168

转载 【复习】Flume数据收集学习【图片+文字说明】

一.Hadoop业务的整体框架流程介绍 以上是hadoop整体的一个开发流程,我们可以看出flume在整个大数据开发过程中的位置:做最前期数据的收集工作。二.Flume架构介绍本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍: flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到图中的HDFS,简单来说flum...

2018-07-31 12:03:10 673

原创 sparkstreaming使用zookeeper来管理消费者offset(文字说明+图片逻辑展示)

谢谢您的鼓励! 

2018-07-31 09:16:03 447

原创 SparkStreamingDataManuallyProducerForKafka(生产消息)【Java版纯代码】

package com.bjsxt.sparkstreaming;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Properties;import java.util.Random;import kafka.javaapi.producer.Producer;import kafk...

2018-07-31 08:57:51 205

原创 savaAsTextFiles将普通文件保存为文本文件【Java版纯代码】

package com.bjsxt;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.streaming.Durations;import org.apac...

2018-07-31 08:07:35 1585

原创 SparkStreamingOnKafkaDirected(没明白 KafkaUtils.createDirectStream)【Java版纯代码】

package streamingOperate.others;import java.util.Arrays;import java.util.HashMap;import java.util.HashSet;import java.util.Map;import kafka.serializer.StringDecoder;import org.apache.spark.S...

2018-07-31 08:06:02 2499

原创 SparkStreamingOnKafkaReceiver(有点儿没明白createStream)【Java版纯代码】

package streamingOperate.others;import java.util.Arrays;import java.util.HashMap;import java.util.Map;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunctio...

2018-07-31 08:03:27 274

原创 SparkStreaming+kafak的direct模式逻辑分析(图片展示+文字说明)

Sparkstreaming+kafka direct模式:将kafka看成存储数据的一方,sparkstreaming处理数据主动去拿数据,不需要一个task一直被占用接受数据sparkStreaming+kafka的direct模式的并行度:生成的dstream中的rdd的并行度与读取的kafka的topic的partition个数一致。Direct模式相对于receiver模式来说简...

2018-07-30 23:56:14 535

原创 SparkStreaming部分:SparkStreaming+kafka 的receive模式(文字说明+图片)

Sparkstreaming+kafka的Receiver模式读取数据:默认读取数据的存储级别是:MEMORY_AND_DISK_SER_2采用了receiver接收器的模式,需要一个task一直处于接受数据的状态,sparkstreaming相当于kafka的消费者,接收来的数据被分到其他节点上,完成之后,会向zookeeper更新消费者的offset。当更新完消费者的偏移量之后,如果D...

2018-07-30 21:14:40 765

原创 SparkStreaming部分:kafka的leader的负载均衡机制(原理逻辑)

kafka的leader的均衡机制当一个broker停止或者crashes时,所有本来将它作为leader的分区将会把leader转移到其他broker上去,极端情况下,会导致同一个leader管理多个分区,导致负载不均衡,同时当这个broker重启时,如果这个broker不再是任何分区的leader,kafka的client也不会从这个broker来读取消息,从而导致资源的浪费。kafk...

2018-07-30 20:57:12 1001

原创 sparkStreaming中关于topic的操作(创建,查看,删除,开启producer,开启consumer,等)【SparkStreaming的文字逻辑说明】

上传解压:在conf下的server-properties文件中,分别设置id为0,1,2kafka启动时需要修改权限:chmod +x startkafka.sh启动:./startkafka.sh创建topic:./kafka-topics.sh --zookeeper node01:2181,node02:2181,node03:2181 --create --t...

2018-07-30 20:40:09 971

原创 SparkStreaming部分:ReduceByKeyAndWindow算子(一边出一边进的模式,一般用于实时统计,里边可以实时操作)【Java版纯代码】

1).    window length:窗口长度    slide length:滑动间隔2).普通:    i).代码:        JavaPairDStream<String, Integer> searchWordCountsDStream =             searchWordPairDStream.reduceByKeyAndWindow(new ...

2018-07-30 18:38:26 1768

原创 SparkStreaming部分:transform算子(在transform内部将传进来不符合的内容按照key过滤掉,下剩的东西按照map算子,以tuple值的形式输出)【Java版纯代码】

package com.bjsxt;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import ...

2018-07-30 18:27:40 661

原创 SparkStreaming部分:updateStateByKey算子(包含从Linux端获取数据,flatmap切分,maptopair分类,写入到本地创建的文件夹中)【Java版纯代码】

package com.bjsxt;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import o...

2018-07-30 18:03:43 334

原创 SparkStreaming部分:读取Socket端口数据(flatMap,maptopair,reducebykey)【Java版纯代码】

SparkStreaming读取Socket端口数据        1.代码:            SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("WordCountOnline");            JavaStreamingContext jsc = new JavaStreamingConte...

2018-07-30 15:19:18 1141

原创 SparkStreaming部分:kafka的总结【文字说明+图片展示+各种命令】

Kafka的架构:分布式消息系统,默认将消息存入磁盘,存储时间是7天。Producer:消息的生产者,自己决定消息写往哪个partition,两种:1.hash,2.轮询Broker:组建kafka集群的节点,broker之间没有主从关系,broker由zookeeper来协调,broker负责消息的读写,存储。每个broker可以管理多个partition。Topic:一类消息的总称...

2018-07-30 12:10:14 357

原创 WordCountOnline(包含获取数据,在控制台输出;flatmap,maptopair,reducebykey;driver端和executor端区别,日志去重;foreachRD)

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.functio...

2018-07-29 20:32:31 495

原创 SparkStreaming练习(包括:从Linux系统接收数据,flatmap切分,maptopair配对,reducebykey聚合,print打印输出,期间接受5S的监控,启动,等待输入)【J】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.fu...

2018-07-29 18:33:42 400

原创 SparkStreaming部分的学习(包括:sparkStreaming与storm的区别, Sparkstreaming处理数据的过程等)【业务逻辑图及文字说明】

sparkStreaming与storm的区别: Sparkstreaming处理数据的过程:sparkstreaming:数据是一段时间处理的,是一个微批处理,这个时间是由自己人为设定的。sparkstreaming的吞吐量高。 Storm:是纯实时处理数据的, Storm擅长处理简单的汇总型业务,sparkstreaming擅长处理复杂的计算型的数据。 Sparkstreamin...

2018-07-29 17:34:07 1160

原创 SparkSQL创建RDD:开窗函数学习(格式为:row_number() over(partition by xxx order by xxxx desc) xxx)

 开窗函数: row_number()开窗函数 主要是按照某个字段分组,然后取定义字段的前几个值,相当于分割取topN的问题 row_number() over(partition by xxx order by xxxx desc) xxx 注意: 如果SQL语句里面使用了开窗函数,那么这个SQL语句必须使用HIveContext来执行,HIveContext是SQLcontext的...

2018-07-29 16:11:00 3597 2

原创 SparkSQL创建RDD:UDAF(UserDefinedAggregatedFunction)用户自定义聚合函数【Java版纯代码】

要实现8个方法,8个方法中,最为重要的有3个:initialize:初始化,在给,map端每一个分区的每一个key进行初始化,给0update:在map端聚合merge: 在reduce端聚合Java版代码:package com.bjsxt;import java.util.ArrayList;import java.util.Arrays;import java....

2018-07-29 15:45:43 591

原创 Python中tuple元组的学习

元组与列表类似,但是元组中的元素不能修改元组使用小括号,列表使用方括号。元组中中只包含一个元素时,需要在后边添加逗号元组与字符串,list数组等类似,可以用下标取值,下标从0开始元组中也可以用【】截取某几个元素的值Tuple不支持元素的删除和修改元组中的元素值是不允许修改的,但我们可以对元组进行连接组合元组中的值是不可以删除的,但是我们可以删除整个元组支持列表转换成...

2018-07-28 18:08:16 162

原创 Python学习:list列表类中的特殊方法

List中append,而String中没有String中修改只能是在输出的时候加List中有remove方法CmpLenMaxMinList(seq)AppendCountExtendIndexInsertPopRemoveReversesort...

2018-07-28 17:48:25 485

转载 Python中String类的特殊字符

Python中格式化的学习       %c  格式化字符及其ASCII码       %s  格式化字符串       %d  格式化整数       %u  格式化无符号整型       %o  格式化无符号八进制数       %x  格式化无符号十六进制数       %X  格式化无符号十六进制数(大写)     ...

2018-07-28 17:09:03 13832

原创 Python学习:质数的计算

for num in range (10,20): for i in range (2,num): if num%i==0: j=num/i print('%d等于 %d * %d '%(num,i,j)) break else: print(num,'是一个质数')———...

2018-07-28 09:53:39 1026

原创 Python学习(包含:模块,推导式,数据库,矩阵的创建,索引和切片等)

#coding:utf-8import datetimeclass My_Util():    @classmethod    def toTime(cls):        print(datetime.date(2018,7,27))if __name__=="__main__":    My_Util.toTime()—————————————————————————...

2018-07-27 21:25:48 184

原创 Python学习(包括:矩阵,矩阵的运算,矩阵水平方向和垂直方向的合并,模块化矩阵的序列化和反序列化等)

#coding:utf-8import numpy as npa =np.array([1,2,3])b =np.array([4,5,6])# 矩阵的算术运算 必要:两个矩阵的维度相同,运算之后的结果不改变维度# print(a * b)# 数学计算(线性代数) 两个二维矩阵: 第一个矩阵第一轴 长度 ==第二个矩阵第二个轴长度a =np.array([[1,2,3],[3,2...

2018-07-27 21:23:13 1428

原创 Python第一个项目(图片案例)【Python版纯代码】

#coding:utf-8import  numpy as npfrom PIL import Imageimport pickle as pimport os#pickle 模块处理矩阵的序列化和反序列化# 把所有图片解析成一个矩阵,然后保存到一个二进制文件,然后读取二进制文件还原成图片class Image_Array_Util(object):    __arrayFile=...

2018-07-27 19:48:42 1029

原创 Python学习(包括:高阶函数,局部变量与全局变量,阶乘函数,递归,嵌套函数,文件操作,类和对象,单例模式,异常等)

#coding:utf-8def func1(a,b):    sum=a+b    # return a,b   #二元组 ()可以省略, 一元组 a =(500,)    return sum # 不写return没有返回值 ,返回多个值,需要借助集合# print(func1(100,200))c=300 # 全局变量a=100list2 =[1,2,3]def fun...

2018-07-26 23:39:45 233

原创 Python学习(包含:if条件判断,while和for循环,打印输出,字符串,反转字符串,字符串取某几个值,元组,集合,遍历输出,可变类型和不可变类型,字典序和函数等)

print("hello world")# 值的类型(数字类型,字符串类型),引用类型(list tuple)name="zhangsan"print(name)age=100print(age)b='hello'print(b)# 类似 scala中的printf# print('数字的值是:%d'%a)# print("%s的年龄是:%s"%(name,age))# p...

2018-07-26 20:59:55 308

原创 SparkSQL创建RDD:UDF(UserDataFrame)用户创建自定义函数(包含动态创建schema,用户自定义函数,查询字符的个数)【Java版纯代码】

Java版代码: package com.bjsxt;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apa...

2018-07-26 13:33:19 946

原创 dataframe操作hive数据仓库【Java纯代码】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache...

2018-07-26 12:23:59 701

原创 (dataframe)利用dataframe来操作MySQL数据库【Java版纯代码】

package com.bjsxt;import java.util.HashMap;import java.util.Map;import java.util.Properties;import org.apache.commons.collections.map.HashedMap;import org.apache.spark.SparkConf;import org.apa...

2018-07-25 22:39:29 2057 1

原创 (DataFrame部分)从文件中读取文件,写入文件,然后再从写入的文件中读取文件,在控制台打印出【Java版纯代码】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;import org.apac...

2018-07-25 20:46:03 1678

原创 (DataFrame部分)通过反射方式将非json格式的RDD转换成DataFrame【Java版纯代码】

package com.bjsxt;import org.apache.hadoop.hive.ql.parse.HiveParser.rowFormat_return;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.J...

2018-07-25 19:43:49 249

原创 读取json格式的RDD创建DF【java版纯代码】

package com.bjsxt;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;imp...

2018-07-25 18:02:29 1531

原创 spark中UDF,从文件中读取数据(两种方式),然后输出【java版纯代码】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.function.Function;import org.a...

2018-07-25 14:59:17 1664

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除