![](https://img-blog.csdnimg.cn/2020112122375216.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 77
笔者暂时没有留下简介!!!
小中.
这个作者很懒,什么都没留下…
展开
-
Hadoop或hive用户名和本地主机用户名不一样,不能读写
解决Hadoop集群用户名和程序运行主机用户名不一样不能读写,配置了HADOOP_USER_NAME不生效的问题。原创 2022-11-17 12:09:27 · 3308 阅读 · 0 评论 -
HBase&Spark集成 -- DataFrame
HBase&Spark集成 – DataFrame Apache HBase 是一个成熟的 NoSQL 存储系统,已在大规模生产部署中得到证明。尽管 HBase 是一个键值存储,但对于像 SQL 一样更轻松地访问数据的需求很高。Apache Spark SQL 提供了基本过滤和插入数据的强大支持。hbase-connectors子项目提供了HBase 与SparkSQL 的集成。 hbase -spark 集成 利用 Spark-1.2.0 版本中引入的DataSource API。HB原创 2022-04-24 09:32:08 · 3977 阅读 · 0 评论 -
Spark分布式弹性数据集RDD、DataFrame和DataSet
Spark分布式弹性数据集RDD、DataFrame和DataSet首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。DataSet会逐步取代RDD和DataFrame成为唯一的API接口。RDDRDD是一个懒执行的不可变的可以支持Lambda表达式的并行数据集合。RDD的最大好处就是简原创 2022-01-27 18:00:25 · 892 阅读 · 0 评论 -
spqrk 读取parquet文件按月、按季、按年统计
按月、按季、按年读取parquet文件案列// 启动spark yarnspark_yarn目录:./bin/spark-shell --master yarn --deploy-mode client --executor-cores 4 --num-executors 3// 设置基础目录:parquet文件时按日期分片存储scala> val basePath = "hdfs://192.168.88.1:8020/data/userzyk.parquet/"// 读取一个不同原创 2021-01-29 18:55:02 · 476 阅读 · 0 评论 -
Spark Stanalone集群构建 HA
Standalone集群构建基础环境准备物理资源:CentOSA/B/C-6.10 64bit 内存2GB主机名IPCentOSA192.168.221.136CentOSB192.168.221.137CentOSC192.168.221.138节点与主机映射关系主机节点服务CentOSANameNode、ZKFC、Zookeeper、journalnode、DataNode、master、worker、brokerCe原创 2020-11-27 17:05:54 · 131 阅读 · 1 评论 -
Spark结构化流
概述Structured Stream是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。使得用户可以像使用Spark SQL操作静态批处理计算一样使用Structured Stream的SQL操作流计算。当流数据继续到达时,Spark SQL引擎将负责递增地,连续地运行它并更新最终结果。使用 Dataset/DataFrame API 实现对实时数据的聚合、event-time 窗口计算以及流到批处理的join操作。最后,系统通过检查点和预写日志来确保端到端(end to end)的一次容错保证原创 2020-11-27 16:50:39 · 954 阅读 · 0 评论 -
Spark SQL BI分析
Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个用途是执行SQL查询。 Spark SQL还可用于从现有Hive安装中读取数据。从其他编程语言中运行SQL时,结原创 2020-11-27 16:46:00 · 927 阅读 · 0 评论 -
Spark流计算
Spark流计算概述一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一般先有全量数据集,然后定义计算逻辑,并将计算应用于全量数据。特点是全量计算,并且计算结果一次性全量输出。批处理 VS 流处理原创 2020-11-03 09:15:12 · 1215 阅读 · 0 评论 -
Spark内存计算
Apache Spark概述Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一代大数据处理框架,在设计初期只是为了满足基于海量数据级的海量数据计算的迫切需求。自2006年剥离自Nutch(Java搜原创 2020-10-29 22:32:42 · 2705 阅读 · 1 评论