自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Spark调优篇

spark调优策略一.代码调优1.避免创建重复的RDD,服用同一个RDD以尽可能减少RDD的数量,从而减少算子计算次数2.对多次使用的RDD进行持久化如何选择合适的持久化?首先要知道持久化的级别都有哪些cache:MEMORY_ONLYpersist:MEMORY_AND_DISKMEMORY_ONLY_SERMEMORY_AND_DISK_SERDISK_ONLYMEMORY_ONLY_2MEMORY_AND_DISK_2checkpoint:①如果一个RDD的计算时间比较

2020-09-01 17:27:40 173

原创 Hive优化的方式

Hive优化1)MapJoin如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。默认是打开的,不要关闭。2)行列过滤列处理:在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。行处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会

2020-08-21 17:24:41 249

原创 hive解决数据倾斜

Hive性能调优通常建议使用以下属性:hive.optimize.reducededuplication.min.reducer=4hive.optimize.reducededuplication=truehive.merge.mapfiles=truehive.merge.mapredfiles=falsehive.merge.smallfiles.avgsize=16000000hive.merge.size.per.task=256000000hive.merge.sparkfiles

2020-08-21 17:20:50 334

转载 HIVE如何处理大量小文件

HIVE如何处理大量小文件一、 控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个ma

2020-08-21 17:05:36 497

原创 flink知识点总结-大白话

1.什么是flink?Apache Flink十一个能够提供毫秒级延迟,同时有保证了数据处理的低延迟、高吞吐和结果的正确性的框架和分布式处理引擎,用于对无界流和有界流进行状态计算2.Flink 的重要特点?事件驱动型基于流的世界观在Flink的世界观中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。分层API越顶层越抽象,表达含义越简明,使用越方便越底层越具体,表达能力越丰富,使用越灵活3.什么是有界流和无界流?无界数据流:有定义流

2020-07-22 09:52:10 1530 1

原创 Flink常见面试题汇总

1.面试题一:应用架构问题:公司怎么提交的实时任务,有多少 Job Manager?解答: 1. 我们使用 yarn session 模式提交任务。每次提交都会创建一个新的 Flink 集群,为每一个 job 提供一个 yarn-session,任务之间互相独立,互不影响, 方便管理。任务执行完成之后创建的集群也会消失。2. 集群默认只有一个 Job Manager。但为了防止单点故障,我们配置了高可用。 我们公司一般配置一个主 Job Manager,两个备用 Job Manager,然后结合 Zo

2020-07-21 09:52:32 1272 2

原创 MYSQL卸载方法

Linux下彻底卸载mysql详解1、确认当前主机是否安装MySQL数据库使用以下命令查看当前安装mysql情况,查找以前是否装有mysqlrpm -qa|grep -i mysql可以看到如下图的所示:显示之前安装了:MySQL-client-5.5.25a-1.rhel5MySQL-server-5.5.25a-1.rhel52、停止mysql服务、删除之前安装的mysql删除命令:rpm -e –nodeps 包名rpm -ev MySQL-client-5.5.25a-1.

2020-07-07 18:55:25 174

原创 web.xml is missing and is set to true的问题

web.xml is missing and is set to true的问题是因为项目中没有web.xml文件,解决步骤如下:

2020-07-01 21:12:46 104

原创 spark集群--standlone.md

1.参见网址:http://spark.apache.org/docs/latest/spark-standalone.html2.对自己的服务器做一个规划3.准备工作网络免密钥把spark的包四台电脑都复制一份4.启动主服务器(haodoop102)sbin/start-master.sh会产生log日志 – 要看日志5.查看网页6.启动小弟(在想当小弟的服务器...

2019-12-28 14:17:37 85

原创 sqoop的基本使用

bin/sqoop list-databases --connect jdbc:mysql://jinghang02:3306/ --username root --password 000000//将RDNMS数据导入到hdfsbin/sqoop import –connect jdbc:mysql://jinghang02:3306/school –username root –pa...

2019-12-28 14:15:50 89

原创 配置spark单机,集群及高可用和yarn

Java -version 查看 jdk版本 whereis javac 查看jdk安装路径搭建spark搭建单机版本在/data/spark目录下上传spark的包解压压缩包tar -xzvf spark-2.4.4-bin-hadoop2.7.tgz修改文件夹的名字(去掉版本号)mv spark-2.4.4-bin-hadoop2.7/ spark安装好后尝...

2019-12-28 10:43:39 229

原创 bin/schematool -dbType mysql -initSchema

报这个错,是因为关键在: com.google .common.base .Preconditions.checkArgument这是因为hive内依赖的guava.jar和hadoop内的版本不一致造成的。检验方法:1.查看hadoop安装目录下share/hadoop/common/lib内guavajar版本2.查看hive安装目录下lib内guavajar的版本如果两者不一致, ...

2019-12-18 20:26:17 595

原创 HBase配置及使用

1.Why1.1.为什么要学习hbaseWeb框架图Model2开发的顺序:从下到上读别人代码的时候是从上到下总结(共性)所有的项目,数据都存储到了数据库中 数据库只认sql语句(crud)用户会在网页上进行:点击,双击,右击,滑动此效果;会被jsp(Servlet)(java)翻译成sql语句,发送给数据库Cud:是对数据库进行更改操作,R:对数据库进行查询操...

2019-12-13 20:24:38 263

转载 hadoop的复习点

Hadoop优势hdfs定义hdfs优点什么是hiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Y...

2019-12-06 16:00:37 174

原创 zookeeper概述

zookeeper 总结1.zookeeper是什么:是一个分布式协调服务的开源概架,主要用来解决分布式集群中应用系统的一致性问题,本质上是一个分布式的小文件存储系统,使用目录树的方式存储数据,可以对树中的节点进行有效管理2.zookeeper的特性:Zookeeper: 一个领导者(Leader) ,多个跟随者(Follower) 组成的集群。2)集群中只要有半数以上节点存活,Zoo...

2019-12-04 15:02:29 128

原创 Hadoop概念试题

Hadoop的回顾以及面试试题以下是试题及总结1. Hadoop集群SafeMode模式SafeMode又称Hadoop安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。在安全模式下不允许客户端进行任何修改文件的操作,包括上传文件,删除文件,重命名,创建文件夹等操作 虽然不能进行修改文件的操作,但是可以浏览目录结构、查看文件内容的。在命令行下是可以...

2019-12-01 18:42:51 1059

原创 概念梳理

hadoop1.x和hadoop2.x区别1.Hadoop1.X就是第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由一个NameNode和多个DateNode组成,MapReduce由一个JobTracker和多个TaskTracker组成2.Hadoop2.0即第二代Hadoop。hadoop2中可以让多个NameNode分管不同的目录进而...

2019-11-16 11:22:10 123

原创 linux命令总结&shell总结&如何搭建伪分布式(总结)

linux命令总结&shell总结&如何搭建伪分布式(总结)1linux命令总结(1)vim命令yy 复制当前行y数字y 从当前行开始,复制数字行p 粘贴u 撤销上一步dd 删除当前行d数字d 从当前行开始,删除数字行x 删除一位,向后删X 删除一位,向前删yw 复制一个词dw 删除一个词shift+^ 移动到本行开头shift+$ 移动到本行结尾g...

2019-11-10 20:03:42 167

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除