2020年08月__东极

原创 spark大数据分析:sparkStrreaming(18)DStream操作

文章目录基础转换操作窗口转换操作输出操作将结果输出到Mysql中连接池工具join操作基础转换操作map,flatMap,filter,repairtition.union,count,reduce,countByValue,reduceBykey,join,cogroup,tansform,updateStateByKey窗口转换操作windowcountByWindowreduceByKeyAndWindowreduceByWindowcountByValueWindow输出操作pr

2020-08-30 23:51:04 393

原创 spark大数据分析:sparkStrreaming(17) 时间窗概念解析

文章目录批处理间隔窗口时间宽度与滑动时间宽度批处理间隔val ssc = new StreamingContext(sc, Seconds(5))对于spark处理数据,数据以流式方式进入划分为一个批次一个批次的,每一段数据合并成一个RDD,并将RDD添加到DStream的HashMap中进行维护,因此数据的处理时间要小于间隔时间,否则造成数据堆压窗口时间宽度与滑动时间宽度...

2020-08-30 18:29:22 1145

原创 spark大数据分析:sparkStrreaming(16)结合kafka

文章目录高阶API低阶API依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka_2.11</artifactId> <version>1.6.3</version> <exclusions>

2020-08-24 23:47:33 327

原创 spark大数据分析:sparkStrreaming(16) 读取数据

文章目录实时HDFS数据读取RDD数据队列读取Flume数据实时HDFS数据import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}object TestStream { def main(args: Array[String]): Unit = { val conf = new SparkConf() .set

2020-08-24 23:13:49 355

原创 spark大数据分析:sparkStrreaming(15)流处理概念

文章目录DStreamDStreamGraphDStreamDStream是一个抽象类,主要功能是为每一个批次的数据生成RDD实例,在DStream抽象类中定义了一个HashMap类型变量,存储持续产生的流数据spark streaming 在持续流入的数据读取时,按时间划分不同批次数据,生成多个RDD,这些RDD保存在 generateRDDs中的HashMap中.键为Time类型DStreamGraph不同DStream 之间依赖关系通过DStreamGraph实例化管理 private[

2020-08-23 22:37:45 358

原创 spark大数据分析:spark SQL (15)自定义函数

文章目录UDFUDAF无泛型约束的UDAFUDFUDF 接受一个参数返回一个结果 spark.udf.register("toUppperCaseUdf",(cloumn:String) => cloumn.toUpperCase) spark.sql("select toUppperCaseUdf(name) from t_user")UDAF多进一出,比如系统函数sum无泛型约束的UDAF...

2020-08-22 23:58:44 557

原创 spark大数据分析:spark SQL (14)RDD , DataFrame,DataSet之间转换

文章目录RDD 与DataFrame转换RDD 与dataSet 转换DataFrame 与 DataSet转换RDD 与DataFrame转换RDD 通过toDF函数转换 DataFrame val rddData1 = spark.sparkContext.parallelize(Array(("Alice", "18", "Female"), ("Mathew", "20", "Male"))) val df1 = rddData1.toDF("name", "age", "sex

2020-08-22 16:42:36 637

原创 spark大数据分析:spark SQL (13) 数据写入

文章目录写入到Mysql写入parquet文件写入文本文件写入到Mysql val df7_1 = spark.createDataFrame(List( ("Alice", "Female", "20"), ("Tom", "Male", "25"), ("Boris", "Male", "18"))).toDF("name", "sex", "age") val properties = new java.util.Properties() pr

2020-08-22 16:33:36 536

原创 spark大数据分析:spark SQL (12) 数据读取

文章目录读取json , csv 文件读取parquet文件读取代码中数据读取Mysql中数据读取json , csv 文件import org.apache.spark.sql.SparkSessionobject TestSQL2 { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[*]") .appName("test")

2020-08-22 16:15:43 541

原创 spark大数据分析:spark SQL (11) DataFrame 与 DataSet

文章目录RDD, DataFrame ,DataSet 比较RDD, DataFrame ,DataSet 比较dataFrame在内存中映射为一张表,RDD相当于表中一行数据,dataset是具备RDD和dataFrame所有优点,强数据类型,保证编译时数据类型安全,符合面向对象编程,便于使用lamba函数在spark2 版本中 dataFram源码已被移除,但是约定 DataFrame-DataSet[Row]主要区别RDD可以知道每个元素具体类型,不知道元素具体属性DataFrame数据

2020-08-18 23:38:13 525

原创 spark大数据分析:spark core(10)广播变量

文章目录缘由案例缘由开发者将数据缓存在每台机器上,不需要机器之间进行频繁的网络IO,减少网络开销,CPU序列化以及反序列化,广播变量分为可变数据类型(例如累加器),不可变类型案例通过城市id补全用户城市信息import org.apache.spark.{SparkConf, SparkContext}object UserCityBrocast { def main(args: Array[String]): Unit = { val conf = new SparkConf()

2020-08-18 23:19:56 362

原创基于java api 提交spark任务集成spring boot

文章目录引入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-launcher_2.11</artifactId> <version>2.2.0</version> </dependency>...

2020-08-11 23:57:00 717

原创基于beeline连接kerberos认证的impala

文章目录基础配置jdbc 连接连接池基础配置下载impala驱动https://downloads.cloudera.com/connectors/impala_jdbc_2.5.41.1061.zip将TCLIServiceClient.jar 以及 ImpalaJDBC4.jar 两个文件夹存放在hive 的本地目录下,只需要配置hiveserver2的节点即可连接beeline -d "com.cloudera.impala.jdbc41.Driver" -u "jdbc:impala:

2020-08-11 22:53:58 1896

原创 parquet表对于hive与imapla表字段修改

以parquet为存储类型的表,在hive里修改表字段类型,会造成impala中对于该表无法进行查询.强制加入cascade 也是无效操作只有在impala中修改字段类型才可有效操作对于已在hive中修改的操作,需要备份数据重新灌入原表,再在impala中刷新元数据才能查询建议:修改表字段类型直接在impala中修改对于已在hive中修改了字段类型的数据,再通过impala修改会直接导致源数据损坏,无法查询...

2020-08-10 23:28:44 1283

原创 spark大数据分析:spark core(9)累加器

文章目录累加器原理累加器原理累加器是spark 提供的一种共享变量机制,在spark中每一个task会分配到不同的节点中,执行过程中如果将多台节点中数据累加到同一变量中,可以通过累加器实现该功能这里只介绍spark2累加器,长整数累加器,双精度浮点数累加器,集合累加器,自定义累加器...

2020-08-10 23:24:29 491

原创 spark大数据分析:spark core(8) RDD 的依赖关系

文章目录宅依赖宽依赖以worldCount解析宽窄依赖宅依赖一个父RDD 对应一个子RDD 例如map ,filter多个父RDD 对应一个子RDD 利于union宽依赖一个父RDD对应一个子RDD例如groupByKey,父RDD中某个分区被子RDD多个分区依赖多个父RDD对应一个子RDD宽依赖必定伴随着shuffle存在一个RDD的依赖关系只能是宽窄二选一以worldCount解析宽窄依赖import org.apache.spark.{HashPartitioner, SparkC

2020-08-10 23:14:12 358

原创 spark大数据分析:spark core(7) RDD 的检查点CheckPoint

文章目录原理CheckPoint与缓存区别原理由于单台机器资源原因,一些RDD缓存内部不现实,需要借助外部机器共同承担资源问题引入了checkPointCheckPoint与缓存区别缓存不会切断RDD的依赖链,如果持久化缓存失效,依赖链重新计算恢复RDD中数据checkPoint是将RDD存储本地磁盘或HDFS可以通过直接读取检查点恢复对应RDDRDD调用checkPoint后 checkPointRDD会成为下游RDD的上游依赖...

2020-08-10 00:23:25 460

原创 spark大数据分析:spark core(6)缓存RDD

文章目录RDD 清理策略缓存RDD方法本质: 将反复用到的数据存储到内存或其他存储介质中好处: 1. 容错,2.对于多次使用的RDD.缓存提高效率persist 与cache 本质上cache 是 persist 的简略版本RDD 清理策略1.4版本之前通过ttl设置过期时间,但是对于一直运行的spark程序是不合理的,1.4之后升级ContextCleaner 功能源码 _cleaner = if (_conf.getBoolean("spark.cleaner.refe

2020-08-10 00:16:39 361

原创 impala优化 COMPUTE STATS 与COMPUTE INCREMENTAL STATS

计算统计声明COMPUTE STATS语句收集有关表以及所有关联的列和分区中的数据量和分布的信息。该信息存储在metastore数据库中，并由Impala用于帮助优化查询。例如，如果Impala可以确定表是大是小，或者具有许多或很少的不同值，则它可以适当地组织和并行化工作以进行联接查询或插入操作。有关此语句收集的各种信息的详细信息，请参见表和列统计信息。句法：COMPUTE STATS [db_name.]table_name [ ( column_list ) ] [TABLESAMPLE SY

2020-08-09 23:51:28 4154

张不帅