2020年11月_请大佬带带我

原创 Finebi 启动命令

nohup ./FineBI &

2020-11-24 18:52:14 1077

1.监控一个目录，将数据打印出来创建 spoolingtest.confa：代表agent的名称type=spooldir ；监控一个目录，只要目录中有新的文件就会被取过来，不能出现文件名一样的文件a.sources = r1a.sinks = k1a.channels = c1#指定spooldir的属性a.sources.r1.type = spooldira.sources.r1.spoolDir = /usr/local/soft/dataa.sources.r1.fil

2020-11-21 22:51:01 450

原创 sqoop 数据集成

############ mysql 数据集成到 hdfs 中创建一个 .conf 文件将参数放进去直接 sqoop --options-file 文件名.conf 就可以执行了import–connectjdbc:mysql://master:3306/user //mysql 地址–username // 用户root–password //密码123456–table //表名student–m

2020-11-21 21:51:41 336

原创 hive 数据库删除语句

1．删除空数据库hive>drop database db_hive2;2．如果删除的数据库不存在，最好采用 if exists判断数据库是否存在hive> drop database db_hive;FAILED: SemanticException [Error 10072]: Database does not exist: db_hivehive> drop database if exists db_hive2;3．如果数据库不为空，可以采用cascade命令，强制删

2020-11-16 16:07:00 1929

原创 Spark BlockManager

blocakManager 也叫作快管理器是存放在Executor 中BlockManager中含有四个组件1.ConnectionManager 作用：和其他Executor中的BlockManager 建立连接2.BlockTransferService 作用：拉取数据3.MemoryStore 作用：管理内存数据4.DiskStore 作用：管理磁盘上的数据blockManager 用来存储三种数据1.RDD的缓存数据 2. 广播变量和累加器 3.shuffle的文件广播变量拉

2020-11-11 00:24:44 193

原创 Spark 累加器

1.在算子内部修改Driver端的一个变量是不会生效的，因为算子里面的代码在 Executor 端运行算子外卖的代码在Driver 端运行，属于不同jvm2.在Driver端定义一个累加器3.在executor 端进行累加4.在Driver端进行获取累加结果//读取分数表val student: RDD[String] = sc.textFile(“spark/students.txt”)// 定义累加器 Acval acc: LongAccumulator = sc.longAccumul

2020-11-10 21:28:28 153

原创 spark广播变量

1.当在算子内使用到Driver端的一个变量的时候，这个变量封装到Task中，变为一个变量副本，发送到Executor中执行2.由于task 的数量一般大于executor 的数量，会产生很多的变量副本，会降低任务执行的速度3.使用广播变量的步骤在 Driver端定义一个广播变量在算子中如果使用到广播变量，会先向executor 中索取如果executor中没有这个广播变量，executor回去Driver端获取广播变量后续的 Task 可以直接使用使用广播变量后广播变量的副本数 M&lt

2020-11-10 21:10:23 183

原创 Spark checkpoint

1.将Rdd 的数据保存到Hdfs 会切断Rdd 的依赖关系2.当第一个job执行完成之后会向前回溯，如果有RDD 做了checkpoint ，会打上一个标记3.重新启动一个Job任务计算RDD 数据，将RDD 的数据保存到Hdfs4.在Checkpoint 前可以先缓存一下val sc = new SparkContext(conf)//设置checkpoint的路径sc.setCheckpointDir(“spark/data/checkpoint”)//读取分数表val student

2020-11-10 18:11:08 138

原创 Spark 缓存

1.Rdd 中默认不保存数据2.如果多次使用Rdd 中的数据可以将RDD 进行缓存3.缓存级别 , 常用三种Memry_only 内存足够的时候推荐Memory_only_serMemory_and_dsik_ser4.缓存的数据实际保存在 executor的内存或者磁盘上是由BlockManager 来管理...

2020-11-10 18:04:07 92

原创 Spark 任务调度资源调度

资源调度分为两种一种是 client 用于测试当代码中出现 New SparkConf在本地启动一个 Driver 和executor 并向 ResourceManager 申请一个启动 ApplicationManager 的节点，ResourceManager 接到申请后启动 ApplicationManager ，ApplicationManager 启动后向ResourceManager申请资源，ResourceManager 会随机向 NodeManager 启动Containe.

2020-11-10 17:36:36 175

原创 spark 隐士转换

如果这里导入后不可以引用的 $" * " 的话要看看你的 sparkSession 的名字是什么这个如果是你别的名字你导入的就要换你写的那个名字如 val ssss =SparkSession就应该导入 import ssss.implicits._...

2020-11-08 12:45:21 226

原创 Spark 运行模式

Spark 运行模式分为四种local 本地运行独立集群基本上已经淘汰了我就不说了yarn 模式目前公司主流模式mesos我今天主要介绍 Yarn 模式其他模式不多说Yarn 模式主要分为两种模式yarn-client 模式yarn-cluster 模式yarn-client1.Driver 实在本地启动的主要负责任务的调度任务调度构建 DAG 有向无环图2.DAGScheduler 根据宽窄依赖切分 Stage ，DagScheduler将

2020-11-06 00:53:33 103

原创 RDD 的依赖关系

2020-11-06 00:44:41 116

原创 Spark RDD五大特征

1.Rdd由一组分区组成（partition）默认是一个block 对应一个分区2.每个分区都有一个 Task 来处理，函数实际上是作用在每一个分区上的3.RDD 直接由一系列的依赖关系宽依赖与窄依赖宽依赖存在 shuffle 算子分区对应的关系是一对多关系窄依赖没有 shuffle 算子分区对应一对一关系根据宽窄依赖切分 Stage ， Stage 是一组并行计算的 task4.分区类算子都会作用在 key value 的 RDD 上5.spark为 task 提.

2020-11-06 00:44:07 2710

原创 Spark-sql 链接hive 元数据数据的表

需要修改 hive conf 中的 hive-site.xml 文件增加过这个配置之后 hive 就会用不了接下来启动hive元数据服务nohup hive --service metastore >> metastore.log 2>&1 &启动过后 jps 会有一个 runjar配置环境变量可以直接执行没有的话要去 hive bin 目录下执行2、将hive-site.xml 复制到spark conf目录下4、将mysql

2020-11-05 23:44:31 200

原创 Exception in thread “main“ org.apache.spark.sql.AnalysisException: Table or view not found: student；

sqark sql 在创建视图的时候会出错是因为使用的临时视图要改成局部的

2020-11-05 16:39:48 1498

原创 Spark 算子

1.map:将原来RDD的每个数据项通过 map 中的用户自定义函数映射转变为一个新的元素。输入一条输出一条;val newRDD = listRDD.map(line=>line.split(",")) //每一行变成了一个数组2.flatMap:先进行一次 map 操作，然后把输出的结果合并成一个对象listRDD.flatMap(line=>line.split(",")).foreach(println)//一行变成多行//输出结果// a// b//

2020-11-01 23:50:27 123 1

原创 spark 常用算子 1

1.map 对数据进行处理传入一行返回一行2.filter3.FlatMap4.sample5.groupByKey6.ReduceBykey7.Union8.JOin

2020-11-01 23:49:30 88

原创 Spark core 写程序指定本地或者hdfs

2020-11-01 16:14:25 192

原创 Maven pom文件爆红处理

Pom 爆红的的原因解决：右击找到 maven 刷新出现小蜘蛛导致全部爆红按减号

2020-11-01 16:11:03 2213

weixin_45967421的博客