![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
张某码
这个作者很懒,什么都没留下…
展开
-
Spark JdbcRDD
JdbcRDD 用来链接数据库,直接重数据库中获取数据分析。JdbcRDD有6个参数 。 1、 sc SparkContext 类型变量 2、链接 jdbc的链接对象 3、sql语句,一般为查询语句 4和5 、为上下边界。 6、partitions 分区数 最后一个 参数,里面存放的是执行sql语句的返回值。JdbcRDD[T: ClassTag]( sc: SparkConte原创 2017-04-28 15:19:23 · 1113 阅读 · 0 评论 -
Spark 分析Url
Spark 项目分析网络URL数据。加深RDD理解要求分析出每个域名的前三个访问量是哪些 URL数据格式3 http://tinyurl.com/3jcvsm//初始化SparkCOntext,这里用的是本地模式运行计算,并导入数据源val conf = new SparkConf().setAppName(this.getClass().getSimpleName().filter(!_.原创 2017-04-24 10:36:17 · 1706 阅读 · 0 评论 -
Spark Partition 分区记录
partitionBy 函数 自定义 Partitionerpartitioner 是在map阶段用来分区的,跟mapreduce的分区对应。可以用partitoner 来把数据分成多个区,每个区中包含特定key的数据。如果没有指定partitioner 默认使用 HashPartitioner。 注意:对spark RDD, partitioner 只有在key-value类型的RDD中可以设置原创 2017-04-27 11:15:57 · 3521 阅读 · 0 评论 -
Spark updateStateByKey Java 和 Scala 版本
Jvav版本JavaPairDStream aggregateDStream = mapDSRDD.updateStateByKey(new Function2, Optional, Optional>() { /** * * @param v1 相同key传进来的值的集合 * @para原创 2018-01-16 14:46:53 · 506 阅读 · 0 评论