Spark
文章平均质量分 82
wuwuwulalar
这个作者很懒,什么都没留下…
展开
-
Spark期末复习(五)Spark MLlib
Spark MLlib简介算法与模型:没有经过数据训练之前的是算法,训练后的是模型spark机器学习:突破传统机器学习算法的单机限制,使用分布式计算框架,对全局数据进行机器学习MLlib库包括:分类、回归、聚类、协同过滤、降维特征化工具:特征提取、转化、降维机器学习不同的包:spark.mllib:基于RDD的数据抽象spark.ml:基于DataFrame的数据抽象,可以将spark SQL与机器学习库融合,所以较为常用机器学习流水线(pipeline)一个比较完整原创 2021-06-22 21:28:12 · 488 阅读 · 0 评论 -
Spark期末复习(四):SparkStream
流计算大量、快速、时变、持续到达特征:数据快速持续到达数据来源多,格式复杂数据量大注重数据的整体价值数据顺序有可能颠倒或不完整处理流程:数据采集 实时分析处理 结果反馈处理引擎:低延迟、可扩展、高可靠Spark Streaming支持的输入源:Kafka、Flume、HDFS\TCP socket支持的输出源:HDFS、Databases、Dashboardsspark是以线程级别并行,实时响应级别高,可实现秒级响应,实现高效的流计算Spark Streamin原创 2021-06-22 20:04:30 · 421 阅读 · 0 评论 -
spark期末复习(三)spark SQL
简介spark core:弹性分布式数据库spark SQL:带有schema信息的RDDspark sql支持非结构化数据分析、半结构化数据分析、结构化数据分析spark sql将关系数据库的结构化数据管理能力与机器学习算法的数据处理能力融合Dataframespark的数据抽象是RDDspark SQL的数据抽象是DataFrame与RDD相比,DataFrame会关注数据的结构DataFrame的创建构建RDD需要声明SparkContext对象,构建DataFrame则需要构原创 2021-06-21 20:09:03 · 660 阅读 · 0 评论 -
Spark期末复习(一)spark介绍
spark概述spark定义:spark是基于内存的快速、通用、易扩展的大数据分析计算引擎spark vs Hadoop从组成上看Hadoopspark在分布式服务器集群上存储海量数据并运行分布式应用的开源框架快速、通用、易扩展的大数据分析计算引擎hdfs作为分布式存储系统存储所有数据,支持Hadoop的所有服务spark core提供最基础、最核心的功能MapReduce是编程模型,作为Hadoop的分布式计算模型,是Hadoop的核心spark sq原创 2021-06-15 09:44:57 · 2324 阅读 · 0 评论 -
Spark期末复习(二)RDD
先占个坑 稍后补上原创 2021-04-25 19:59:45 · 1016 阅读 · 0 评论 -
Spark学习(二)部署模式
这里写目录标题Spark三种部署模式1. standalone模式2、Spark on Mesos模式3. Spark on YARN模式Spark三种部署模式1. standalone模式独立模式,Spark 原生的简单集群管理器, 自带完整的服务, 可单独部署到一个集群中,无需依赖任何其他资源管理系统, 使用 Standalone 可以很方便地搭建一个集群2、Spark on Mesos模式Mesos是一种资源调度管理框架,可以为运行在它上面的Spark提供服务。Spark on Mesos模原创 2021-04-25 19:58:54 · 313 阅读 · 2 评论 -
Spark学习(一):Spark简介
spark特点Spark具有如下几个主要特点:• 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;• 易于使用:支持使用Scala、Java、python和R语言进行编程,也可以通过spark shell进行交互式编程• 通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件,这些原创 2021-04-25 15:05:47 · 362 阅读 · 0 评论