![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
yyf960126
这个作者很懒,什么都没留下…
展开
-
SparkSql——自定义Schema
package spark.testimport org.apache.spark.sql.{SparkSession,Row}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}object customSchemaTest { def main(args: Ar...原创 2018-05-12 19:57:27 · 2457 阅读 · 0 评论 -
SparkSql——读文件写文件(一)
package spark.SparkSqlimport org.apache.spark.sql.SparkSessionobject SparkSql2 { def main(args: Array[String]): Unit = { //创建sqlSession val spark = SparkSession.builder().master("local[3...原创 2018-05-13 23:05:23 · 3052 阅读 · 0 评论 -
SparkSql——读文件写文件(二)
//保存文件夹的类型**********save()里面是文件夹的路径****************下面这些也是控制文件夹怎么放的方式 //SaveMode.ErrorIfExists (默认) "error" or "errorifexists" (默认) 将DataFrame保存到数据源时,如果数据已经存在,则预计会抛出异常。 // SaveMode.Appen...原创 2018-05-14 14:49:35 · 2075 阅读 · 0 评论 -
SparkSql——jdbc两种连接和转储表的方式
package spark.SparkSqlimport java.util.Propertiesimport org.apache.spark.sql.SparkSessionobject sparkSql3 { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().mast...原创 2018-05-16 08:16:11 · 415 阅读 · 0 评论 -
SPARK-SQL内置函数之时间日期类
转载请注明转自:http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-09 15:20:49.247二、从日期时间中提取字段 1.year,month,day/dayofmonth,hour,minute,se...转载 2018-05-30 16:33:15 · 4046 阅读 · 0 评论 -
Rdd算子转+自己写的scala代码详解
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)...原创 2018-10-19 15:07:54 · 479 阅读 · 0 评论 -
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。rece...转载 2018-10-22 15:41:03 · 130 阅读 · 0 评论