Spark
木凡空
就让光芒折射泪湿的瞳孔
映出心中最想拥有的彩虹
展开
-
SparkSQL之DataFrame使用详解
一、应用1.show def show1(ss:SparkSession):Unit={ val df=ss.read.json("E:\\data\\spark\\dataframe\\test\\read\\people.json") df.show() }2.select def select1(ss:SparkSession):Unit={ val df=ss.read.json("E:\\data\\spark\\dataframe\\test\\read原创 2020-07-05 18:32:59 · 669 阅读 · 0 评论 -
Spark之RDD使用详解
一、创建1、外部数据源(1)读取win读取winval conf=new SparkConf().setAppName("New Test").setMaster("local")val sc=new SparkContext(conf)val readText=sc.textFile("D:\\example\\one.txt")val result=readText.sa...原创 2020-07-03 18:32:36 · 1361 阅读 · 0 评论 -
RDD算子之sample、takeSample源码详解
一、sample1.描述根据给定的随机种子,从RDD中随机地按指定比例选一部分记录,创建新的RDD。返回RDD[T]2.源码//返回此RDD的抽样子集defsample(withReplacement: Boolean, fraction: Double, seed: Long = Utils.random.nextLong): RDD[T]={ require(fraction >= 0,s"Fraction must be nonnegative, but got ${fraction原创 2020-06-28 06:42:10 · 2100 阅读 · 0 评论 -
RDD应用实例之app版本升级分析
一、数据2020-05-14,张三,王者荣耀,华为应用,北京,v1.02020-05-14,李四,王者荣耀,应用宝,北京,v1.22020-05-14,张三,王者荣耀,华为应用,天津,v1.22020-05-14,张三,王者荣耀,小米应用,天津,v2.02020-05-14,王五,阴阳师,app store,上海,v1.82020-05-14,张三,王者荣耀,小米应用,天津,v2.02020-05-14,王五,阴阳师,app store,上海,v1.92020-05-15,王五,阴阳师,ap原创 2020-06-27 00:29:22 · 357 阅读 · 0 评论 -
Windows搭建Spark开发环境
一、下载官网下载:spark-2.4.6-bin-hadoop2.7.tgz二、安装1.解压2.环境变量3.启动# 启动spark-shell# 退出:quit原创 2020-06-26 19:24:25 · 206 阅读 · 0 评论 -
Spark之基本架构和工作原理
一、基本概念Spark是一个基于内存的分布式批处理引擎二、基本用途数据处理: 快速处理数据,兼具容错性与扩张性迭代计算: 有效应对多步数据处理逻辑数据挖掘: 在海量数据基础上进行复杂的挖掘分析,支持多种数据挖掘和机器学习算法三、适用场景1.数据处理、ETL2.迭代计算、数据重复利用通话记录分析…3.机器学习空气质量预测和评价自动判断买家好/差评客户流失预测…4.交互式分析结合hive/hbase数据仓库查询…5.流计算页面浏览/点击分析推荐系统原创 2020-06-26 12:18:13 · 1275 阅读 · 0 评论 -
IDEA创建Maven的Spark项目详解
一、Pom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"> <modelVersion>4.0.0</modelVer原创 2020-06-26 07:23:59 · 629 阅读 · 0 评论 -
IDEA创建Maven的Scala项目详解
一、Windows安装Scala官网下载:Scala解压。例如解压到D:\Software\scala-2.13.2新建系统变量SCALA_HOME,为D:\Software\scala-2.13.2,添加入PATHcmd打开控制台,查看是否安装成功二、IDEA配置scala-sdk三、创建项目四、问题Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile(default) on原创 2020-06-20 19:56:33 · 6087 阅读 · 0 评论 -
A master URL must be set in your configuration
IDEA中运行spark程序遇到异常“org.apache.spark.SparkException: A master URL must be set in your configuration”解决方法:在“Edit Configurations”中配置一下VM options,“-Dspark.master=local”...原创 2020-01-30 20:34:10 · 516 阅读 · 0 评论 -
Spark写数据到HBase
import org.apache.hadoop.hbase.client.{Put, Result}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormatimport org.apache.hadoop.hbase....原创 2019-12-11 22:50:11 · 89 阅读 · 0 评论 -
提交运行spark程序
#!/bin/bash#当前日期nowDate=`date +%Y%m%d/%H:%M:%S`echo "执行时间:${nowDate}"#当前目录baseDir=$(cd `dirname $0`;pwd)echo "当前目录:${baseDir}"#jar包jar_file=${baseDir}/Test.jarif [ -f ${jar_file} ];then...原创 2019-12-08 14:20:35 · 125 阅读 · 0 评论 -
Spark中如何使saveAsTextFile只生成一个文件
一般来说,saveAsTextFile是根据执行task的数量生成相应个数的结果文件,例如part-00000一直到part-0000n,n是task的个数,也是最后stage的分区数。 要使最后的结果只生成一个文件,可以调用coalesce(1,true)或reparation(1)。repartition(numPartitions:Int):RDD[T...原创 2019-11-25 15:58:02 · 2155 阅读 · 0 评论 -
Spark查询Hive表
Scala版本:2.10Spark版本:1.6.01、引入依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.10</artifactId> <version>1.6.0</versi...原创 2019-11-25 15:01:29 · 1266 阅读 · 0 评论 -
退出spark-shell
退出命令 :quit原创 2019-11-24 09:56:08 · 1800 阅读 · 0 评论