Spark
Spark学习
码农的进阶之路
三人行,必有我师。学海无涯
展开
-
【Spark Streaming】3、Spark Streaming入门
Spark Streaming入门将不同的数据源的数据经过Spark Streaming处理之后将结果输出到外部文件系统特点:低延时能从错误中高效的恢复:fault-tolerant能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用one stack to rule them all:一栈式WordCountSpark-submit方式运行Net...原创 2020-01-17 10:34:39 · 186 阅读 · 0 评论 -
【Spark Streaming】2、Kafka入门
分布式消息队列KafkaKafka概述Apache Kafka®是一个分布式流平台。流平台具有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流处理流Kafka常用于两种应用程序:建立实时流数据管道,以可靠地在系统或应用程序之间获取数据构建实时流应用程序以转换或响应数据流Kafka平台搭建Kafka是采用scala语言开发,如...原创 2020-01-17 10:31:08 · 152 阅读 · 0 评论 -
【Spark Streaming】日志收集框架Flume的学习
Spark版本升级日志收集框架Flume概览Apache Flume是一个分布式,可靠且可用的系统,用于有效地收集,聚合大量日志数据并将其从许多不同的源移动到集中式数据存储中。Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎所有可能的数据源。数据流模型Flum...原创 2020-01-17 10:29:03 · 502 阅读 · 0 评论 -
【Spark SQL】6、常用API的学习
所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder()import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basic example") .config("s...原创 2020-01-16 18:07:13 · 278 阅读 · 0 评论 -
【Spark SQL】5、DataFrame&DataSet的简单使用
DataFrame与RDD的互操作/** * DataFrame和RDD的互操作 */object DataFrameRDDApp { def main(args: Array[String]) { val spark = SparkSession.builder().appName("DataFrameRDDApp").master("local[2]").getOrCr...原创 2020-01-16 17:48:50 · 252 阅读 · 0 评论 -
【Spark SQL】4、Spark SQL的安装及简单使用
SparkMapReduce的局限性:代码繁琐只能够支持map和reduce方法执行效率低下不适合迭代多次,交互式、流式的处理Spark下载选择package type为Source Code,随后下载spark-2.4.4.tgz为了与学习一致,这里选择spark-2.1.0,故需要maven3.3.9及以上版本,java7及以上版本Spark源码编译注意:这里之所以选...原创 2020-01-16 17:45:52 · 3534 阅读 · 0 评论 -
【Spark SQL】3、大数据数据仓库Hive的学习
大数据数据仓库Hive产生背景MapReduce编程的不变性HDFS上的文件缺失schema用于处理海量结构化的日志数据统计问题构建在Hadoop之上的数据仓库Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同)通常用于进行离线数据处理支持多种不同的压缩格式(GZIP、LZO、Snappy、BZIP2)、存储格式(TextFile/SequenceFile/RC...原创 2020-01-16 17:33:49 · 264 阅读 · 0 评论 -
【Spark SQL】2、YARN的学习
YARN概述YARN的基本思想是将资源管理和作业调度/监视的功能分解为单独的守护进程。我们的想法是拥有一个全局ResourceManager(RM)和每个应用程序ApplicationMaster(AM)。应用程序可以是单个作业,也可以是作业的DAG。ResourceManager和NodeManager构成了数据计算框架。 ResourceManager是在系统中的所有应用程序之间仲裁资...原创 2020-01-16 17:30:49 · 325 阅读 · 0 评论 -
【Spark SQL】1、初探大数据及Hadoop的学习
初探大数据centos 6.4CDH5.7.0系列http://archive.cloudera.com/cdh5/cdh/5/生产或测试环境选择对应CDH版本时,一定要采用尾号一样的版本OOPTBapache-maven-3.3.9-bin.tar.gzJdk-7u51-linux-x64.tar.gzZeppelin-0.7.1-bin.tgzHive-1.1.0-cd...原创 2020-01-16 17:18:28 · 357 阅读 · 0 评论