2018年07月_道法—自然

原创 UseZookeeperManageOffset【Java版纯代码】

package com.manage;import java.util.Map;import org.apache.log4j.Logger;import org.apache.spark.streaming.api.java.JavaStreamingContext;import com.manage.getOffset.GetTopicOffsetFromKafkaBroker;...

2018-07-31 20:11:37 205

原创 ProjectUtil【Java版纯代码】

package com.manage;import java.io.IOException;import java.io.InputStream;import java.util.Properties;import org.apache.log4j.Logger;import org.apache.log4j.PropertyConfigurator;public class P...

2018-07-31 20:10:38 233

原创 GetTopicOffsetFromKafkaBroker【Java版纯代码】

package com.manage.getOffset;import java.util.Arrays;import java.util.HashMap;import java.util.Map;import java.util.Map.Entry;import java.util.Set;import com.google.common.collect.ImmutableMap...

2018-07-31 20:08:48 169

原创 GetTopicOffsetFromZookeeper【Java版纯代码】

package com.manage.getOffset;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Map.Entry;import java.util.Set;import org.apache.curator.framework.CuratorFram...

2018-07-31 20:07:21 168

转载【复习】Flume数据收集学习【图片+文字说明】

一.Hadoop业务的整体框架流程介绍以上是hadoop整体的一个开发流程，我们可以看出flume在整个大数据开发过程中的位置：做最前期数据的收集工作。二.Flume架构介绍本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍： flume是分布式的日志收集系统，它将各个服务器中的数据收集起来并送到指定的地方去，比如说送到图中的HDFS，简单来说flum...

2018-07-31 12:03:10 673

原创 sparkstreaming使用zookeeper来管理消费者offset（文字说明+图片逻辑展示）

谢谢您的鼓励！

2018-07-31 09:16:03 447

原创 SparkStreamingDataManuallyProducerForKafka（生产消息）【Java版纯代码】

package com.bjsxt.sparkstreaming;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Properties;import java.util.Random;import kafka.javaapi.producer.Producer;import kafk...

2018-07-31 08:57:51 205

原创 savaAsTextFiles将普通文件保存为文本文件【Java版纯代码】

package com.bjsxt;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.streaming.Durations;import org.apac...

2018-07-31 08:07:35 1585

原创 SparkStreamingOnKafkaDirected（没明白 KafkaUtils.createDirectStream）【Java版纯代码】

package streamingOperate.others;import java.util.Arrays;import java.util.HashMap;import java.util.HashSet;import java.util.Map;import kafka.serializer.StringDecoder;import org.apache.spark.S...

2018-07-31 08:06:02 2499

原创 SparkStreamingOnKafkaReceiver（有点儿没明白createStream）【Java版纯代码】

package streamingOperate.others;import java.util.Arrays;import java.util.HashMap;import java.util.Map;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunctio...

2018-07-31 08:03:27 274

原创 SparkStreaming+kafak的direct模式逻辑分析（图片展示+文字说明）

Sparkstreaming+kafka direct模式：将kafka看成存储数据的一方，sparkstreaming处理数据主动去拿数据，不需要一个task一直被占用接受数据sparkStreaming+kafka的direct模式的并行度：生成的dstream中的rdd的并行度与读取的kafka的topic的partition个数一致。Direct模式相对于receiver模式来说简...

2018-07-30 23:56:14 535

原创 SparkStreaming部分：SparkStreaming+kafka 的receive模式（文字说明+图片）

Sparkstreaming+kafka的Receiver模式读取数据：默认读取数据的存储级别是：MEMORY_AND_DISK_SER_2采用了receiver接收器的模式，需要一个task一直处于接受数据的状态，sparkstreaming相当于kafka的消费者，接收来的数据被分到其他节点上，完成之后，会向zookeeper更新消费者的offset。当更新完消费者的偏移量之后，如果D...

2018-07-30 21:14:40 765

原创 SparkStreaming部分：kafka的leader的负载均衡机制（原理逻辑）

kafka的leader的均衡机制当一个broker停止或者crashes时，所有本来将它作为leader的分区将会把leader转移到其他broker上去，极端情况下，会导致同一个leader管理多个分区，导致负载不均衡，同时当这个broker重启时，如果这个broker不再是任何分区的leader,kafka的client也不会从这个broker来读取消息，从而导致资源的浪费。kafk...

2018-07-30 20:57:12 1001

原创 sparkStreaming中关于topic的操作（创建，查看，删除，开启producer，开启consumer，等）【SparkStreaming的文字逻辑说明】

上传解压：在conf下的server-properties文件中，分别设置id为0,1,2kafka启动时需要修改权限：chmod +x startkafka.sh启动：./startkafka.sh创建topic：./kafka-topics.sh --zookeeper node01:2181,node02:2181,node03:2181 --create --t...

2018-07-30 20:40:09 971

原创 SparkStreaming部分：ReduceByKeyAndWindow算子（一边出一边进的模式，一般用于实时统计,里边可以实时操作）【Java版纯代码】

1). window length:窗口长度 slide length:滑动间隔2).普通： i).代码： JavaPairDStream<String, Integer> searchWordCountsDStream = searchWordPairDStream.reduceByKeyAndWindow(new ...

2018-07-30 18:38:26 1768

原创 SparkStreaming部分：transform算子（在transform内部将传进来不符合的内容按照key过滤掉，下剩的东西按照map算子，以tuple值的形式输出）【Java版纯代码】

package com.bjsxt;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import ...

2018-07-30 18:27:40 661

原创 SparkStreaming部分：updateStateByKey算子（包含从Linux端获取数据，flatmap切分，maptopair分类，写入到本地创建的文件夹中）【Java版纯代码】

package com.bjsxt;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import o...

2018-07-30 18:03:43 334

原创 SparkStreaming部分：读取Socket端口数据（flatMap，maptopair，reducebykey）【Java版纯代码】

SparkStreaming读取Socket端口数据 1.代码： SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("WordCountOnline"); JavaStreamingContext jsc = new JavaStreamingConte...

2018-07-30 15:19:18 1141

原创 SparkStreaming部分：kafka的总结【文字说明+图片展示+各种命令】

Kafka的架构：分布式消息系统，默认将消息存入磁盘，存储时间是7天。Producer：消息的生产者，自己决定消息写往哪个partition，两种：1.hash，2.轮询Broker：组建kafka集群的节点，broker之间没有主从关系，broker由zookeeper来协调，broker负责消息的读写，存储。每个broker可以管理多个partition。Topic：一类消息的总称...

2018-07-30 12:10:14 357

原创 WordCountOnline（包含获取数据，在控制台输出；flatmap，maptopair，reducebykey；driver端和executor端区别，日志去重；foreachRD）

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.functio...

2018-07-29 20:32:31 495

原创 SparkStreaming练习（包括：从Linux系统接收数据，flatmap切分，maptopair配对，reducebykey聚合，print打印输出，期间接受5S的监控，启动，等待输入）【J】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.fu...

2018-07-29 18:33:42 400

原创 SparkStreaming部分的学习（包括：sparkStreaming与storm的区别， Sparkstreaming处理数据的过程等）【业务逻辑图及文字说明】

sparkStreaming与storm的区别： Sparkstreaming处理数据的过程：sparkstreaming：数据是一段时间处理的，是一个微批处理，这个时间是由自己人为设定的。sparkstreaming的吞吐量高。 Storm：是纯实时处理数据的， Storm擅长处理简单的汇总型业务，sparkstreaming擅长处理复杂的计算型的数据。 Sparkstreamin...

2018-07-29 17:34:07 1160

原创 SparkSQL创建RDD：开窗函数学习（格式为：row_number() over(partition by xxx order by xxxx desc) xxx）

开窗函数： row_number()开窗函数主要是按照某个字段分组，然后取定义字段的前几个值，相当于分割取topN的问题 row_number() over(partition by xxx order by xxxx desc) xxx 注意：如果SQL语句里面使用了开窗函数，那么这个SQL语句必须使用HIveContext来执行，HIveContext是SQLcontext的...

2018-07-29 16:11:00 3597 2

原创 SparkSQL创建RDD：UDAF（UserDefinedAggregatedFunction）用户自定义聚合函数【Java版纯代码】

要实现8个方法，8个方法中，最为重要的有3个：initialize：初始化，在给，map端每一个分区的每一个key进行初始化，给0update：在map端聚合merge：在reduce端聚合Java版代码：package com.bjsxt;import java.util.ArrayList;import java.util.Arrays;import java....

2018-07-29 15:45:43 591

原创 Python中tuple元组的学习

元组与列表类似，但是元组中的元素不能修改元组使用小括号，列表使用方括号。元组中中只包含一个元素时，需要在后边添加逗号元组与字符串，list数组等类似，可以用下标取值，下标从0开始元组中也可以用【】截取某几个元素的值Tuple不支持元素的删除和修改元组中的元素值是不允许修改的，但我们可以对元组进行连接组合元组中的值是不可以删除的，但是我们可以删除整个元组支持列表转换成...

2018-07-28 18:08:16 162

原创 Python学习：list列表类中的特殊方法

List中append，而String中没有String中修改只能是在输出的时候加List中有remove方法CmpLenMaxMinList(seq)AppendCountExtendIndexInsertPopRemoveReversesort...

2018-07-28 17:48:25 485

转载 Python中String类的特殊字符

Python中格式化的学习 %c 格式化字符及其ASCII码 %s 格式化字符串 %d 格式化整数 %u 格式化无符号整型 %o 格式化无符号八进制数 %x 格式化无符号十六进制数 %X 格式化无符号十六进制数（大写） ...

2018-07-28 17:09:03 13832

原创 Python学习：质数的计算

for num in range (10,20): for i in range (2,num): if num%i==0: j=num/i print('%d等于 %d * %d '%(num,i,j)) break else: print(num,'是一个质数')———...

2018-07-28 09:53:39 1026

原创 Python学习（包含：模块，推导式，数据库，矩阵的创建，索引和切片等）

#coding:utf-8import datetimeclass My_Util(): @classmethod def toTime(cls): print(datetime.date(2018,7,27))if __name__=="__main__": My_Util.toTime()—————————————————————————...

2018-07-27 21:25:48 184

原创 Python学习（包括：矩阵，矩阵的运算，矩阵水平方向和垂直方向的合并，模块化矩阵的序列化和反序列化等）

#coding:utf-8import numpy as npa =np.array([1,2,3])b =np.array([4,5,6])# 矩阵的算术运算必要：两个矩阵的维度相同,运算之后的结果不改变维度# print(a * b)# 数学计算(线性代数) 两个二维矩阵：第一个矩阵第一轴长度 ==第二个矩阵第二个轴长度a =np.array([[1,2,3],[3,2...

2018-07-27 21:23:13 1428

原创 Python第一个项目（图片案例）【Python版纯代码】

#coding:utf-8import numpy as npfrom PIL import Imageimport pickle as pimport os#pickle 模块处理矩阵的序列化和反序列化# 把所有图片解析成一个矩阵，然后保存到一个二进制文件，然后读取二进制文件还原成图片class Image_Array_Util(object): __arrayFile=...

2018-07-27 19:48:42 1029

原创 Python学习（包括：高阶函数，局部变量与全局变量，阶乘函数，递归，嵌套函数，文件操作，类和对象，单例模式，异常等）

#coding:utf-8def func1(a,b): sum=a+b # return a,b #二元组 ()可以省略，一元组 a =（500,） return sum # 不写return没有返回值 ,返回多个值，需要借助集合# print(func1(100,200))c=300 # 全局变量a=100list2 =[1,2,3]def fun...

2018-07-26 23:39:45 233

原创 Python学习（包含：if条件判断，while和for循环，打印输出，字符串，反转字符串，字符串取某几个值，元组，集合，遍历输出，可变类型和不可变类型，字典序和函数等）

print("hello world")# 值的类型（数字类型，字符串类型），引用类型（list tuple）name="zhangsan"print(name)age=100print(age)b='hello'print(b)# 类似 scala中的printf# print('数字的值是：%d'%a)# print("%s的年龄是:%s"%(name,age))# p...

2018-07-26 20:59:55 308

原创 SparkSQL创建RDD：UDF（UserDataFrame）用户创建自定义函数（包含动态创建schema，用户自定义函数，查询字符的个数）【Java版纯代码】

Java版代码： package com.bjsxt;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apa...

2018-07-26 13:33:19 946

原创 dataframe操作hive数据仓库【Java纯代码】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache...

2018-07-26 12:23:59 701

原创（dataframe）利用dataframe来操作MySQL数据库【Java版纯代码】

package com.bjsxt;import java.util.HashMap;import java.util.Map;import java.util.Properties;import org.apache.commons.collections.map.HashedMap;import org.apache.spark.SparkConf;import org.apa...

2018-07-25 22:39:29 2057 1

原创（DataFrame部分）从文件中读取文件，写入文件，然后再从写入的文件中读取文件，在控制台打印出【Java版纯代码】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;import org.apac...

2018-07-25 20:46:03 1678

原创（DataFrame部分）通过反射方式将非json格式的RDD转换成DataFrame【Java版纯代码】

package com.bjsxt;import org.apache.hadoop.hive.ql.parse.HiveParser.rowFormat_return;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.J...

2018-07-25 19:43:49 249

原创读取json格式的RDD创建DF【java版纯代码】

package com.bjsxt;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;imp...

2018-07-25 18:02:29 1531

原创 spark中UDF，从文件中读取数据（两种方式），然后输出【java版纯代码】

package com.bjsxt;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.function.Function;import org.a...

2018-07-25 14:59:17 1664

空空如也

空空如也