spark
文章平均质量分 89
花掏尽
老老实实,勤勤恳恳,继续努力(=^ ^=)
展开
-
ClassNotFoundException: org.apache.htrace.core.HTraceConfiguration 和 TableInputFormatBase
问题背景Apache Spark2 整合 Hbase2 的时候报错.问题内容出现两次错误第一个: Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/mapreduce/TableInputFormatBase----------------------------------分割线---------------------------------------原创 2021-04-02 22:25:09 · 794 阅读 · 0 评论 -
Spark总结(SparkSQL)
什么是SaparkSQL?SaprkSQL是spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataSet并且作为分布式SQL查询引擎的作用。SparkSQL的由来我们学过Hive,它是将Hive SQL转化为MapReduce然后提交集群上去运行,大大简化了编写MapReduce的程序的复杂性,但是由于计算的时候效率比较慢。所以SparkSql应运而生(刚...原创 2019-04-24 19:26:13 · 711 阅读 · 0 评论 -
RDD、DataFrame、DataSet原理解析
一、RDD、DataFrame、DataSet三者概念1. RDD:全称Resilient Distributed Dataset,弹性分布式数据集,Spark中最基础的数据抽象,特点是RDD只包含数据本身,没有数据结构。2. DataFrame:也是一个分布式数据容器,除数据本身,还记录了数据的结构信息,即schema;结构信息便于Spark知道该数据集中包含了哪些列,每一列的类型和数据是...转载 2019-04-24 19:18:14 · 2334 阅读 · 0 评论 -
Sparkstream小结
实时数据:根据自身的容忍性来定义实时,并没有一个准确的时间来形容这个概念。Sparkstream与storm的区别storm实时流计算框架是一条一条数据处理,sparkstream准实时流式框架,微批处理,延迟比storm高;两者都支持动态调整资源;sparkstream支持复杂的业务逻辑,storm相对来说逻辑简单一些(相对来说)。SparkStream数据处理流程图S...原创 2019-04-19 23:07:31 · 4744 阅读 · 0 评论 -
Spark总结(模式)
StandaloneStandalone-client模式:启动集群的时候worker现象master汇报情况(都有什么资源);client用spark-submit提交任务:提交任务的时候会在本机上启动driver进程;接着向master申请资源(在跑任务之前);然后driver进程就会发送到任务到节点上的excutor运行;运行完成后回收结果总结:Client模式,会...原创 2019-04-14 23:11:44 · 226 阅读 · 0 评论 -
Spark to yarn启动的时候报错:org.apache.spark.SparkException: Yarn application has already ended!
场景:Spark to yarn启动的时候报错原因:虚拟内存不够解决方案: 可通过以下两种方式解决: 调大虚拟内存比: yarn.nodemanager.vmem-pmem-ratio 默认2.1倍 或者关闭虚拟内存检查:...原创 2019-04-13 23:38:21 · 1776 阅读 · 0 评论 -
Spark集群和yarn一起搭建和简单实例
上传解压tar -zxvf spark-2.2.1-bin-hadoop2.6.tgz切换目录cd /home/spark-2.2.1-bin-hadoop2.6/conf/修改配置文件spark-env.shmv spark-env.sh.templatespark-env.shvim spark-env.shJAVA_...原创 2019-04-13 21:48:45 · 414 阅读 · 0 评论 -
Spark总结(简介 算子 基础知识)
2.1版本是什么?Apache Spark是Apache的一个顶级项目,是一个基于内存的分布式的快速、通用的大规模数据处理引擎。Spark是一站式解决方案,集批处理、实时流计算、交互式查询、图计算与机器学习与一体。Spark是美国加州大学伯克利分校的AMP实验室研发的,从09年开始敲代码,12年发行0.6.0版本,然后是13年加入apache并且只用了8个月时间成为Apache的顶...原创 2019-04-12 23:54:26 · 260 阅读 · 0 评论 -
大数据端口号最全列表,不全你来打我
常见端口汇总:Hadoop:50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : ZKFC端口19888:jobhistory WEB UI端口Zookeeper:2181 : 客户端连接zookeep...转载 2019-03-26 14:23:52 · 268 阅读 · 0 评论