spark大数据
文章平均质量分 53
涉及到spark以及一些大数据操作方面的基础知识,配置,常识,和应用等
corelone2
这个作者很懒,什么都没留下…
展开
-
idea直接在集群上运行jar包
基础配置和之前的一样,这里放上前面的博客:https://blog.csdn.net/weixin_43887873/article/details/125032225不同的地方就是直接在idea的代码里面设置为集群环境运行,并设置jar包路径。jar包路径设置为idea项目里的,并且勾选了include in project build,这样运行代码的时候,就能自动打包,并提交到集群上【所以集群肯定是得提前开着的】参考文献:https://www.jianshu.com/p/b4e4658c.原创 2022-05-29 20:00:30 · 645 阅读 · 1 评论 -
【Idea 打包spark程序,集群模式下运行】
由于这是我自己随手记录的,所以显得比较乱,但是步骤基本都有,排版就以后再说。重试一次,自定义jar包程序运行。1.建立scala项目2.添加spark下的jar包依赖【usr/local/spark/jars】,当然也有scala的sdk,一般我这边已经有了写程序:我终于,可以从头到尾,自己写下来所有的API。并且运行成功。接下来开始打包,先注释掉,setMaster(“local”)main class,这边自动给我识别,然后删除,除项目jar包以外的所有依赖,【集群环境里.原创 2022-05-29 16:16:38 · 2020 阅读 · 0 评论 -
【idea-spark环境-无maven】
将需要的jar包,全部放到一个文件夹,放到虚拟机中的一个目录中,我这边放的是/usr/local/spark/中,添加到lib中.最后在Modules中的依赖中选择,然后apply就行。原创 2022-03-08 14:54:32 · 2179 阅读 · 0 评论 -
spark yarn模式集群下运行超出虚拟内存
本人另外还修改yarn-site.xml,增加了: yarn.nodemanager.pmem-check-enabled false yarn.nodemanager.vmem-check-enabled false 此部分来自:https://blog.csdn.net/rongyongfeikai2/article/details/69361333?utm_source=blogxgwz7转载 2020-08-09 15:36:56 · 813 阅读 · 0 评论 -
Spark的几种常用模式
原文:https://blog.csdn.net/qq_33689414/article/details/802326051.spark-shell的本地模式和集群模式1.1 local本地模式直接启动spark-shell命令窗口脚本启动后,会生成一个SparkContext的上下文对象sc。并且启动的是本地模式(local)...转载 2020-08-05 14:46:26 · 496 阅读 · 0 评论 -
改maven之后,jar包生成问题
我是采用了删除plugs全部,然后重新打包(即执行那条打包命令: /usr/local/maven/bin/mvn package转载 2020-08-04 19:12:39 · 160 阅读 · 0 评论 -
cacheTable与uncacheTable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下: 执行该代码之后,文本文件会存储于本地路径:/tmp/datas,它包含1000行测试数据,将其...转载 2020-12-22 15:01:41 · 203 阅读 · 0 评论 -
DataFrame registerTempTable(注册临时表)
将数据存成数据集的方式是实现数据各种操作非常有效的一种方式。也能够迅速实现数据的导入与导出。Spark DataFrame提供了registerTempTable这样的接口,可以将数据对象存成临时表,便于后续的各种查询操作等。如select, join等。 以前都是直接从数据中读入数据,生成一个dataframe对象,都没有遇到 table not found的问题。然而今天用手工创建的时候,总是会报这个错误。 res1.registerTempTable("hello") 表示是将r转载 2020-12-22 11:37:29 · 958 阅读 · 0 评论 -
slave1: ssh: connect to host slave1 port 22: No route to host
原文:https://blog.csdn.net/qingyu66/article/details/69668591 问题描述: 启动hadoop时【master slave1 slave2】 master启动正常,slave1未启动并显示其错误 slave1: ssh: connect to host slave1 port 22: No route to host转载 2020-11-29 22:31:14 · 3268 阅读 · 0 评论 -
spark计算框架理解
首先明确一点:学计算框架主要就是学2部分:1.资源调度 2.任务调度 写一个spark程序包含加载配置文件,创建上下文,创建RDD , 调用RDD的算子,用户在算子中自定义的函数 map端:狭窄的理解是MapReduce中的map端,本质就是将数据变成你想要的形式,例如:按照空格切分...转载 2020-11-16 10:51:58 · 268 阅读 · 0 评论