Spark
.
Michael-DM
普通大二学生,博客用于学习和回顾,如有错误请私信帮助改正,谢谢
展开
-
Spark自定义排序
在这之前,我们先准备一些数据,使用rdd存放 //获得SparkContext val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("SortApp") val sc = new SparkContext(conf) val rdd = sc.parallelize(List("米家激...原创 2020-04-12 15:58:17 · 100 阅读 · 0 评论 -
Spark广播变量的使用
官网信息通过sc.broadcast广播出去val broadcastVar = sc.broadcast(Array(1, 2, 3))通过broadcastVar.value取到值broadcastVar.value这是一个join案例,通过广播变量以降低通信成本广播变量是把小表的数据通过sc广播出去def main(args: Array[String]): Unit = ...原创 2020-04-07 10:51:08 · 1024 阅读 · 0 评论 -
Spark整合Kudu-读写操作操作
先加依赖:<dependency> <groupId>org.apache.kudu</groupId> <artifactId>kudu-spark2_2.11</artifactId> <version>1.7.0</version>&...原创 2020-03-24 20:34:39 · 1837 阅读 · 0 评论 -
Spark整合Kudu-创建表和增删改查操作
开启kudu:sudo /etc/init.d/kudu-tserver startsudo /etc/init.d/kudu-masterstart首先你需要添加依赖<dependency> <groupId>org.apache.kudu</groupId> <artifactId>kudu-client<...原创 2020-03-24 20:13:58 · 2427 阅读 · 1 评论 -
RDD转DF的两种方式
1.第一种方式:首先我们展示一下数据文件:Michael, 29Andy, 30Justin, 19然后我们开始编写第一种实现方法:先写一个case calss,然后再map方式将数据转换成people形式通过toDF直接转换def run1(sparkSession: SparkSession): Unit = { //隐式转换 import sparkSession.im...原创 2020-03-23 22:30:49 · 4807 阅读 · 0 评论 -
Spark SQL内置函数和自定义函数使用
1.内置函数准备工作,先写个main方法,准备一些数据def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder() .master("local").appName("HiveSourceApp") .getOrCreate() //准...原创 2020-03-23 20:04:42 · 698 阅读 · 0 评论 -
thriftserver和beeline的使用,代码连接server(连接hive)
启动thriftserver:./sbin/start-thriftserver.sh --master local --jars ~/software/mysql-connector-java-5.1.27-bin.jar–master ;指定运行模式–jars :导入mysql依赖包这样就算启动成功了接下来启动beeline./bin/beeline -u jdbc:hi...原创 2020-03-23 17:47:23 · 487 阅读 · 0 评论 -
Spark对接Hive
我们要使用spark对接hive,首先要把hive-site.xml拷贝到$SPARK_HOME/conf下,接下来我们测试一下使用spark-shell测试:./bin/spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar –master指定运行模式-jars 由于我们要...原创 2020-03-23 17:22:10 · 195 阅读 · 0 评论 -
Spark-Datasource-API操作
Spark-Datasource-API操作1.text数据源读写操作写操作时应用mode(“overwritew”)函数,表示如果目标文件夹已存在,那么会覆盖,详情见2def text(spark: SparkSession): Unit ={ //隐式转换 import spark.implicits._ //读操作 val df: DataFrame = sp...原创 2020-03-21 15:47:40 · 220 阅读 · 0 评论 -
Spark编程,Spark-shell使用方法,Spark-submit运行模式
1.第一个Spark程序:WordCount第一步:创建sparkContextsetMaster:运行模式setAppName:设置appName val sparkConf = new SparkConf().setMaster("local").setAppName("SparkWordCountApp") val sc = new SparkContext(sparkC...原创 2020-03-20 01:19:18 · 572 阅读 · 0 评论 -
SparkSql API,Spark DataSet 和DataFrame使用
1.SparkSessionSparkSession就是设计出来合并SparkContext和SQLContext的。我建议能用SparkSession就尽量用。如果发现有些API不在SparkSession中,你还是可以通过SparkSession来拿到SparkContext和SQLContex的。val context: SparkContext = sparkSession.spark...原创 2020-03-20 02:03:45 · 272 阅读 · 0 评论