![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术
文章平均质量分 64
大数据框架
春_
life
展开
-
HDFS和Spark配置LZO压缩,Spark读取LZO创建正常Task数量
1.说明为了解决,下数据日益增长并且目前使用Snappy压缩导致的Spark读取时会出现OOM,并且处理起来速度过慢的问题,决定使用LZO+Index来解决问题。线上Hadoop版本3.2.1,Spark2.3.1,Lzo使用最新版0.4.212.安装lzopsudo yum -y install lzop3.下载编译安装LZO下载地址http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz下载好后在linux下进行原创 2022-02-11 10:33:26 · 2225 阅读 · 2 评论 -
Hadoop集群HDFS各节点磁盘使用率不平衡,使用balancer做数据平衡
HDFS上各节点磁盘大小不一致,新增节点数据平衡前,是非常不均衡的,某些节点已经接近90了集群的数据平衡已经迫在眉睫,必须要搞一搞了。1.设置传输速率我这里是万兆网卡,就先设置100M了在两台master上分别执行:hdfs dfsadmin -fs hdfs://nn1:8020 -setBalancerBandwidth 100M2.找一台空闲集器,开始平衡数据#设置数据之间差值5%nohup $Hadoop_home/bin/start-balancer.sh –threshol原创 2022-01-12 16:15:39 · 2331 阅读 · 0 评论 -
ES curator离线安装与部署
1.版本:es:6.5.1curator:5.8.4 下载地址:https://www.elastic.co/guide/en/elasticsearch/client/curator/current/yum-repository.html#_signing_key_22.连接不上网站怎么办?出现无法访问此网页的话,去修改下本地dns具体方法:https://blog.csdn.net/weixin_43736084/article/details/1217756763.下载我这里用原创 2021-12-07 18:33:36 · 1911 阅读 · 0 评论 -
Flume-ng 高可用搭建-与测试
前提:1)五台虚拟机(三台也可以)2)flume单节点测试并学会3)hadoop集群搭建完成Flume NG集群,架构图Flume的存储可以支持多种,这里只列举了HDFS角色分配名称HOST角色Agent1chun1Web ServerAgent2chun2Web ServerAgent3chun3Web ServerCollec...原创 2019-08-29 16:47:14 · 308 阅读 · 0 评论 -
flink(一个流处理,一个批处理)
aa原创 2019-10-24 10:18:47 · 1223 阅读 · 0 评论 -
Kafka幂等性与事务
kafka幂等性 博客https://www.cnblogs.com/smartloli/p/11922639.html幂等性: 主要解决生产者到broker之间的数据重复问题主要是引入了ProducerID和SequenceNumber来实现幂等性,当producer发送消息给broker后等待返回ack,broker持久化数据后并返回ack,ack返回途中假如遇到了网络IO、FullGC、OOm等异常时,ack返回失败,producer会继续发送数据,如果没有幂等性,那么数据会被再次持久化,原创 2020-10-16 16:55:21 · 244 阅读 · 0 评论 -
Elasticsearch
https://developer.51cto.com/art/201904/594615.htm转载 2020-01-11 21:10:31 · 204 阅读 · 0 评论 -
Scala进阶-函数练习
1) map()函数可以对整个集合进行操作,比如创建一个Seq列表,然后用map对集合*2 val salaries = Seq(2,3,4,5) val newsalaries = salaries.map(_*2)2) flatMap函数faltMap函数是map一种扩展,faltMap中传入一个函数,该函数对每个输入都会返回一个集合,然后,会把多个集合“拍扁”...原创 2019-09-17 16:36:17 · 406 阅读 · 0 评论 -
Scala学习
Scala学习(1.在菜鸟驿站简单学习)由于学过java等语言,Scala简单的把语法多敲多练习就可以新语言开始学习主要是语法的熟悉阶段,菜鸟教程里的内容全部完成一遍object HelloWorld { def main(args: Array[String]): Unit = { println("Hello, world!") }}Scala 特性...原创 2019-09-17 15:17:16 · 161 阅读 · 0 评论 -
Hive优化(再一遍系统复习)
Hive优化(或者面试问你工作中遇到的问题就可以答hive优化)select * 是不走MR程序的可以开启本地模式local(当文件小于默认128M且文件数少于4个,不走MR)表的优化(1) 小表 join 大表将key相对分散,并且数据量小的表放在jon左边,这样可以有效减少内存溢出(OOM)错误发生几率;在进一步可以开启MapJoin让小维度的表先进入内存,在map端完成reduc...原创 2019-12-27 16:39:58 · 157 阅读 · 0 评论 -
flume学习-含安装
1.Flume是什么:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume组成架构下面我们来详细介绍一下Flume架构中的组件。1) Agent:是一个jvm程序,它以事件的形式将数据从源头送至目的地,是Flume数据传输的基本单元Agent 主要有三个部分组成:Source、Channel、...原创 2019-08-28 17:37:15 · 301 阅读 · 0 评论 -
zookeeper客户端练习(idea-Junit测试)
用Junit测试每个方法1) 创建连接 ZooKeeper zk = new ZooKeeper("chun1:2181,chun2:2181," + "chun3:2181,chun4:2181,chun5:2181",3000,null);2) 创建节点@Testpublic void testCreate() throws KeeperEx...原创 2019-08-26 12:39:08 · 396 阅读 · 0 评论 -
Hbase学习-一步一步慢慢来
HBASE是一个分布式系统其中有一个管理角色: HMaster(一般2台,一台active,一台backup)(我用的五台)其他的数据节点角色: HRegionServer(很多台,看数据容量)1.安装参考我的博客安装,很详细安装遇见问题里面有详解2.命令2.1 hbase命令行客户端操作2.1.1建表:create 't_user','base_info','extra_in...原创 2019-08-25 00:49:44 · 202 阅读 · 0 评论