![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
zhaoxiaoba123
这个作者很懒,什么都没留下…
展开
-
Spark Streaming 概述
Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. Data can be ingested from many sources like Kafka, Flume, Kinesis, or TCP sockets, and can be processed usi原创 2020-09-13 19:49:40 · 901 阅读 · 0 评论 -
Spark SQL
1、spark 前世今生Spark SQLSQL: MySQL、Oracle、DB2、SQLServer很多小伙伴熟悉SQL语言数据量越来越大 ==> 大数据(Hive、Spark Core)直接使用SQL语句来对大数据进行分析:这是大家所追逐的梦想person.txt ==> 存放在HDFS1,zhangsan,302,lisi,313,wangwu,32hive表:personid:int name:string age:int导入数据:load … 统计分原创 2020-09-13 19:47:30 · 1810 阅读 · 0 评论 -
PySpark实战之Spark优化
1、优化之HistoryServer配置及使用Monitoring and InstrumentationThere are several ways to monitor Spark applications: web UIs, metrics, and external instrumentation.译监测与仪器有几种方法可以监视Spark应用程序:Web UI,指标和外部工具。Web InterfacesEvery SparkContext launches a web UI, by原创 2020-09-13 19:41:32 · 573 阅读 · 0 评论 -
Spark Core进阶
1、Spark核心概念详解Application User program built on Spark. Consists of a driver program and executors on the cluster.翻译:应用程序: 建立在Spark上的用户程序。由集群上的驱动程序和执行程序组成。功能解读:Application 基于Spark的应用程序 = 1个driver + 多个executors 组成spark0402.py自己写文代码/pyspark/spark-shell 就原创 2020-09-13 19:38:34 · 135 阅读 · 0 评论 -
Spark运行模式
Local模式:–master–name–py-files./spark-submit --master local[2] --name spark-local /home/hadoop/script/spark0402.py file:///home/hadoop/data/hello.txt file:///home/hadoop/wc/outputstandalonehdfs: NameNode DataNodeyarn: ResourceManager NodeManagerma原创 2020-09-13 19:34:16 · 64 阅读 · 0 评论 -
Spark Core RDD编程
RDD Operation(RDD 操作)transformations(转变): create a new dataset from an existing one(从现有数据集创建新数据集) RDDA ---transformation--> RDDB y = f(x) rddb = rdda.map(....) lazy(*****) rdda.map().filter()......collect map/filter/group by/distin原创 2020-09-13 19:33:06 · 136 阅读 · 0 评论 -
Spark Core 核心RDD
1、 RDD是一个抽象类,带泛型的,可以支持多种类型,String、Person、User…2、RDD : Resilient Distributed Dataset 弹性 分布式 数据集 是spark里面最基本的一个抽象的单元,是一个不可变的数据集分区的并行计算3、 什么是Resilient 弹性:spark 作为一个和mapreduce类似的计算框架,能做到分布式节点挂掉或者某个数据节点丢了后自动进行数据跟踪和修复,这就弹性。4、什么是分布式 Distributed 分布式:数原创 2020-09-13 19:28:15 · 219 阅读 · 0 评论 -
spark 官网首页
简单的spark概述:原文:Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools原创 2020-09-13 19:20:48 · 63929 阅读 · 0 评论