![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
两人走
Long long ago.I bagan to learn java, because of her.As your think,i love her very much.So i must make a lot of money.I want to have a family with her.
When I was in college, I found programming very profitable, so I began to try to contact it. The more I contacted it, the more I liked it.
展开
-
SparkSQL-Dataset详解
/** * 一:SparkSql--dataset * 1.Perple是一个强类型的类 * 2.Dataset中的数据是由结构的,因为People对象中有结构信息,例如字段和字段类型 * 3.Dataset能够将使用类似SQL这样声名结构化查询的形式来查询 * 4.Dataset是一个强类型,并且类型安全的数据容器,并且提供了结构化查询API和类似RDD * 一样的命令式API * * 二:Dataset底层类型 * 即使使用Dataset命令API,执行计划依然会被优原创 2020-11-22 17:15:47 · 663 阅读 · 0 评论 -
SparkSQL之“Dataset和Dataframe
package zsyh.sprk.coreimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}case class Person(name:String, age:Int)/** * * SparkSql最大的特点是它针对结构化数据设计,SparkSql应该是能支持对某一个字段的访问,而这种访问方式以个前提 * 就是SparkSql的数据集中,要包含结构化信息,也就是俗称的Schema * S原创 2020-11-15 16:29:31 · 136 阅读 · 0 评论 -
spark检查点Checkpoint
CheckPointCheckPoint的作用 checkPoint的主要作用事斩断RDD的依赖关系,并将数据存储在可靠的数据引擎中,例如分布式文件存储系统HDFS.checkPoint的方式:可靠的将数据存储在可靠的存储引擎中,例如HDFS本地的,将数据存储在本地什么斩断依赖 斩断依赖链是一个非常重非要的操作,接下来以HDFS的nameNode的原理来举例说明: Hdfs的NameNOde中主要职责是维护两个文件,一个叫做edits,另外一个是fsimage,edits中主要存放E原创 2020-11-08 12:18:00 · 512 阅读 · 0 评论 -
spark的paireRdd的转换操作aggregateByKey(zoreValue)(SeqOp(),CombOp)
object Demo { def main(args: Array[String]): Unit = { val conf = new ConfigProperties("xxx") // 测试 val sparkConf = new SparkConf().setAppName("app.name").setMaster("local") // 测试 val sc = new SparkContext(sparkConf) val rdd = sc.parallel原创 2020-10-27 09:47:38 · 191 阅读 · 0 评论 -
spark的行动算子aggregate函数
object Demo {def main(args: Array[String]): Unit = {val conf = new ConfigProperties(“xxx”) // 测试val sparkConf = new SparkConf().setAppName(“app.name”).setMaster(“local”) // 测试val sc = new SparkContext(sparkConf)val rdd = sc.parallelize(List(1,2,3,4,5,原创 2020-10-27 09:20:44 · 220 阅读 · 0 评论 -
spark手动维护kafka偏移量=>存储介质mysql/redis
package commonimport java.utilimport redis.clients.jedis.{HostAndPort, JedisCluster, JedisPoolConfig}/** * JedisCluster连接工具 * @author IT803300 * @date 2020-10-15 */object RedisDBUtil { private val nodes:util.Set[HostAndPort] = new util.H原创 2020-10-15 11:33:24 · 274 阅读 · 0 评论 -
spark手动维护kafka偏移量录标
spark手动维护kafka偏移量录标package common/***偏移量操作工具类*/import java.sql.{DriverManager, ResultSet}import org.apache.kafka.common.TopicPartitionimport org.apache.spark.streaming.kafka010.OffsetRangeimport scala.collection.mutableobject OffsetUtil { /**原创 2020-10-14 16:50:43 · 327 阅读 · 3 评论