T、X、M
码龄5年
关注
提问 私信
  • 博客:8,040
    8,040
    总访问量
  • 16
    原创
  • 380,396
    排名
  • 13
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2019-11-09
博客简介:

weixin_45858664的博客

查看详细资料
个人成就
  • 获得9次点赞
  • 内容获得3次评论
  • 获得34次收藏
创作历程
  • 8篇
    2020年
  • 10篇
    2019年
成就勋章
TA的专栏
  • spark
    1篇
  • 参数调优
    1篇
  • hive参数调优
    1篇
  • hive小文件的处理
    1篇
  • hive
  • bin/schematool -dbType mysql -initS
    4篇
兴趣领域 设置
  • 大数据
    hadoop
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Spark调优篇

spark调优策略一.代码调优1.避免创建重复的RDD,服用同一个RDD以尽可能减少RDD的数量,从而减少算子计算次数2.对多次使用的RDD进行持久化如何选择合适的持久化?首先要知道持久化的级别都有哪些cache:MEMORY_ONLYpersist:MEMORY_AND_DISKMEMORY_ONLY_SERMEMORY_AND_DISK_SERDISK_ONLYMEMORY_ONLY_2MEMORY_AND_DISK_2checkpoint:①如果一个RDD的计算时间比较
原创
发布博客 2020.09.01 ·
195 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive优化的方式

Hive优化1)MapJoin如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。默认是打开的,不要关闭。2)行列过滤列处理:在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。行处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会
原创
发布博客 2020.08.21 ·
324 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive解决数据倾斜

Hive性能调优通常建议使用以下属性:hive.optimize.reducededuplication.min.reducer=4hive.optimize.reducededuplication=truehive.merge.mapfiles=truehive.merge.mapredfiles=falsehive.merge.smallfiles.avgsize=16000000hive.merge.size.per.task=256000000hive.merge.sparkfiles
原创
发布博客 2020.08.21 ·
387 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE如何处理大量小文件

HIVE如何处理大量小文件一、 控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个ma
转载
发布博客 2020.08.21 ·
585 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

flink知识点总结-大白话

1.什么是flink?Apache Flink十一个能够提供毫秒级延迟,同时有保证了数据处理的低延迟、高吞吐和结果的正确性的框架和分布式处理引擎,用于对无界流和有界流进行状态计算2.Flink 的重要特点?事件驱动型基于流的世界观在Flink的世界观中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。分层API越顶层越抽象,表达含义越简明,使用越方便越底层越具体,表达能力越丰富,使用越灵活3.什么是有界流和无界流?无界数据流:有定义流
原创
发布博客 2020.07.22 ·
1627 阅读 ·
7 点赞 ·
1 评论 ·
9 收藏

Flink常见面试题汇总

1.面试题一:应用架构问题:公司怎么提交的实时任务,有多少 Job Manager?解答: 1. 我们使用 yarn session 模式提交任务。每次提交都会创建一个新的 Flink 集群,为每一个 job 提供一个 yarn-session,任务之间互相独立,互不影响, 方便管理。任务执行完成之后创建的集群也会消失。2. 集群默认只有一个 Job Manager。但为了防止单点故障,我们配置了高可用。 我们公司一般配置一个主 Job Manager,两个备用 Job Manager,然后结合 Zo
原创
发布博客 2020.07.21 ·
1346 阅读 ·
1 点赞 ·
2 评论 ·
15 收藏

MYSQL卸载方法

Linux下彻底卸载mysql详解1、确认当前主机是否安装MySQL数据库使用以下命令查看当前安装mysql情况,查找以前是否装有mysqlrpm -qa|grep -i mysql可以看到如下图的所示:显示之前安装了:MySQL-client-5.5.25a-1.rhel5MySQL-server-5.5.25a-1.rhel52、停止mysql服务、删除之前安装的mysql删除命令:rpm -e –nodeps 包名rpm -ev MySQL-client-5.5.25a-1.
原创
发布博客 2020.07.07 ·
206 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

web.xml is missing and is set to true的问题

web.xml is missing and is set to true的问题是因为项目中没有web.xml文件,解决步骤如下:
原创
发布博客 2020.07.01 ·
124 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark集群--standlone.md

1.参见网址:http://spark.apache.org/docs/latest/spark-standalone.html2.对自己的服务器做一个规划3.准备工作网络免密钥把spark的包四台电脑都复制一份4.启动主服务器(haodoop102)sbin/start-master.sh会产生log日志 – 要看日志5.查看网页6.启动小弟(在想当小弟的服务器...
原创
发布博客 2019.12.28 ·
107 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

sqoop的基本使用

bin/sqoop list-databases --connect jdbc:mysql://jinghang02:3306/ --username root --password 000000//将RDNMS数据导入到hdfsbin/sqoop import –connect jdbc:mysql://jinghang02:3306/school –username root –pa...
原创
发布博客 2019.12.28 ·
113 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

配置spark单机,集群及高可用和yarn

Java -version 查看 jdk版本 whereis javac 查看jdk安装路径搭建spark搭建单机版本在/data/spark目录下上传spark的包解压压缩包tar -xzvf spark-2.4.4-bin-hadoop2.7.tgz修改文件夹的名字(去掉版本号)mv spark-2.4.4-bin-hadoop2.7/ spark安装好后尝...
原创
发布博客 2019.12.28 ·
273 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

bin/schematool -dbType mysql -initSchema

报这个错,是因为关键在: com.google .common.base .Preconditions.checkArgument这是因为hive内依赖的guava.jar和hadoop内的版本不一致造成的。检验方法:1.查看hadoop安装目录下share/hadoop/common/lib内guavajar版本2.查看hive安装目录下lib内guavajar的版本如果两者不一致, ...
原创
发布博客 2019.12.18 ·
671 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HBase配置及使用

1.Why1.1.为什么要学习hbaseWeb框架图Model2开发的顺序:从下到上读别人代码的时候是从上到下总结(共性)所有的项目,数据都存储到了数据库中 数据库只认sql语句(crud)用户会在网页上进行:点击,双击,右击,滑动此效果;会被jsp(Servlet)(java)翻译成sql语句,发送给数据库Cud:是对数据库进行更改操作,R:对数据库进行查询操...
原创
发布博客 2019.12.13 ·
287 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hadoop的复习点

Hadoop优势hdfs定义hdfs优点什么是hiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Y...
转载
发布博客 2019.12.06 ·
202 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

zookeeper概述

zookeeper 总结1.zookeeper是什么:是一个分布式协调服务的开源概架,主要用来解决分布式集群中应用系统的一致性问题,本质上是一个分布式的小文件存储系统,使用目录树的方式存储数据,可以对树中的节点进行有效管理2.zookeeper的特性:Zookeeper: 一个领导者(Leader) ,多个跟随者(Follower) 组成的集群。2)集群中只要有半数以上节点存活,Zoo...
原创
发布博客 2019.12.04 ·
157 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop概念试题

Hadoop的回顾以及面试试题以下是试题及总结1. Hadoop集群SafeMode模式SafeMode又称Hadoop安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。在安全模式下不允许客户端进行任何修改文件的操作,包括上传文件,删除文件,重命名,创建文件夹等操作 虽然不能进行修改文件的操作,但是可以浏览目录结构、查看文件内容的。在命令行下是可以...
原创
发布博客 2019.12.01 ·
1100 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

概念梳理

hadoop1.x和hadoop2.x区别1.Hadoop1.X就是第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由一个NameNode和多个DateNode组成,MapReduce由一个JobTracker和多个TaskTracker组成2.Hadoop2.0即第二代Hadoop。hadoop2中可以让多个NameNode分管不同的目录进而...
原创
发布博客 2019.11.16 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

linux命令总结&shell总结&如何搭建伪分布式(总结)

linux命令总结&shell总结&如何搭建伪分布式(总结)1linux命令总结(1)vim命令yy 复制当前行y数字y 从当前行开始,复制数字行p 粘贴u 撤销上一步dd 删除当前行d数字d 从当前行开始,删除数字行x 删除一位,向后删X 删除一位,向前删yw 复制一个词dw 删除一个词shift+^ 移动到本行开头shift+$ 移动到本行结尾g...
原创
发布博客 2019.11.10 ·
186 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多