- 博客(6)
- 资源 (7)
- 收藏
- 关注
原创 五.SparkStreaming
E. SparkStreaming一.SparkStreaming概述1. SparkStreaming是什么?Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Str
2020-06-30 20:25:10 146
原创 Kerberos 与hadoop组件之间的认证问题 持续更新
ICMP Port UnreachableCaused by: javax.security.auth.login.LoginException: ICMP Port Unreachable at com.sun.security.auth.module.Krb5LoginModule.attemptAuthentication(Krb5LoginModule.java:808) at com.sun.security.auth.module.Krb5LoginModule.login(Krb5L.
2020-06-30 18:25:31 3423 2
原创 三.Spark_RDD(下)
C_Spark_RDD(下)一. RDD中的函数传递1. 传递一个方法package cn.xhjava.spark.rdd.funcationtransmitimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 在实际开发中我们往往需要自己定义一些对于RDD的操作, * 那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端
2020-06-29 20:47:40 150
原创 二.Spark_RDD(上)
B_Spark_RDD(上)一. RDD概述1. 什么是RDDRDD(Resilient DistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2. RDD的属性一组分区(Partition),即数据集的基本组成单位一个计算每个分区的函数RDD之间的依赖关系一个Partitioner,即RDD的分片函数一个列表,存储存放每个Partition的优先位置3. RDD的特点RD
2020-06-29 20:45:41 136
原创 一.Spark基本介绍
A_Spark基本介绍一.Spark历史所以,Yarn问世了,Yarn由ResourceManager和NodeManager组成ResourceManager(RM)的主要作用处理客户端的请求(Spark-submit提交job)监控NodeManager(监控节点状态)启动或监控ApplicationMaster,每一个运行在yarn上的程序,都存在一个ApplicationMaster,只是该AM是随机在任意一个NodeManager上创建的资源的分配与调度NodeManag
2020-06-29 20:20:16 590
原创 hudi-hive-sync
hudi-hive-syncSyncing to Hive 有两种方式:在hudi 写时同步使用run_sync_tool.sh 脚本进行同步1. 代码同步val spark = SparkSession .builder() .config(sparkConf) .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .getOrCreate()
2020-06-02 11:26:02 4326
MySQL--5.6.22-1.el6.i686.rpm.zip
2019-05-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人