![](https://img-blog.csdnimg.cn/20200618143817253.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
SparkCore
RDD叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
胡子球手
谦虚请教
展开
-
Sparkcore和Sparksql完成经典TopN
数据是:import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Row, SparkSession}object TopN { def main(args: Array[String]): Unit = { sparkcoreTopN() sparksqlTopN() } def sparkcoreTopN(原创 2020-06-11 14:49:15 · 2043 阅读 · 2 评论 -
spark练习题来了
以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论数据说明:rng_comment.txt文件中的数据字段 字段含义index 数据idchild_comment 回复数量comment_time 评论时间content 评论内容da_v 微博个人认证like_status 赞pic 图片评论urluser_id 微博用户iduser_name 微博用户名vip...原创 2020-05-01 11:23:31 · 3566 阅读 · 0 评论 -
Spark支持通过Java JDBC访问关系型数据库
读取本地数据入MySQL表代码package SparkSqlimport java.sql.DriverManagerimport org.apache.spark.{SparkConf, SparkContext}object SparkMsql { def main(args: Array[String]): Unit = { //实例化sparkconf ...原创 2020-04-11 15:47:19 · 2642 阅读 · 0 评论 -
Spark Core的RDD详解(1)
(1)什么是RDD?RDD 叫做弹性分布式数据集,是Spark中最基本的数据(计算抽象),代码中是一个抽象类,代表一个不可变,可分区,里面的元素可并行计算的集合(2)RDD的主要属性1、数据集的基本组成单位,一组分片或多分区每个分片(每个分区)都会被一个计算任务处理,分片数决定并行度(与kafka相同)用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值(默认值是...原创 2020-04-08 09:53:36 · 2312 阅读 · 0 评论 -
Spark 可以通过Hadoop输入格式访问HBase(创建hbase表和读取hbase数据)
package SparkSqlimport org.apache.hadoop.hbase.client.{HBaseAdmin, Put, Result}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.{HBaseConfiguration, HColumnDe...原创 2020-04-12 11:50:13 · 2230 阅读 · 0 评论 -
Spark Core的RDD详解(2)完结
RDD累加器和广播变量在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。为了满足这种需求,Spark提供了两种类型的变量:1.累加器accumulators:累加器支持在所有不同节点之间...原创 2020-04-12 11:50:34 · 2228 阅读 · 0 评论