![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 70
Jaeger1024
菜鸟学习中
展开
-
【大数据】HBase常见问题及解决方案总结(一)
hbase常见问题及解决方案总结转载 2022-01-24 16:46:30 · 3975 阅读 · 0 评论 -
【大数据】Namenode HA 宕机处理
怎么样尽快处理恢复原创 2022-01-24 10:56:52 · 2593 阅读 · 0 评论 -
【大数据】spark 提交任务
提交任务时常用的选项如下:--class: 程序入口,主类--master: 集群主节点(master)地址(e.g.spark://23.195.26.187:7077)--deploy-mode: 部署方式 ,在worker上(cluster) 或者是在客户端上 (client) (default:client)†--conf: 配置选项application-jar: 程序以及依赖的...翻译 2018-04-19 11:23:23 · 808 阅读 · 0 评论 -
【大数据】Apache Hadoop进行版本升级的操作
3月份,公司最大的集群要从Hadoop2.4升级到Hadoop2.8 ,是一个大版本跨度的升级操作,所以前期对Hadoop2.8版本进行了很多功能和性能方面的验证和测试。同时也拟定了几个升级和回滚方案。由于集群的离线任务一般在夜间,所以夜间的HDFS压力很大,RPC延迟很高,导致集群性能下降,最终升级是在这种集群快要支撑不住的情况下进行的。当然,升级过程还算比较平稳,没有出现什么惊心动魄的事情。我...原创 2018-04-30 11:38:13 · 10584 阅读 · 1 评论 -
【大数据】查找并优化参数设置不合理,导致产生大量小文件的Hive任务
背景 公司的数据开发平台上提交了数万个定时任务,有Mapreduce,也有Spark,mapreduce业务大多是基于Hive的定时任务。(我们公司没有用oozie,数据开发平台集成了oozie的任务流功能。)定时任务是由业务方自己提交,并且自己设置相关参数的。所有经常会出现参数设置不合理,导致map数和reduce数都非常大,过程中产生大量小文件,影响了HDFS的性能。所以前段时间安排了针...原创 2018-02-24 20:40:47 · 789 阅读 · 0 评论 -
Hadoop 环境配置文件hadoop-env.sh 详解
有时间稍微看了一下JAVA虚拟机的相关知识,稍微整理了一下生产环境中的hadoop-env配置。不怎么专业,将就看一下吧。以后有时间再把JAVA虚拟机的知识整理一下。环境参数参数设置参数说明备注HADOOP_OPTS-Djava.net.preferIPv4Stack=true优先使用IPV4,禁用IPV6 HADOOP_NAMENODE_OPTSXms140G初始堆内存大小 Xmx140G最大...原创 2018-02-23 20:24:25 · 27223 阅读 · 3 评论 -
hadoop2.0的datanode多目录数据副本存放策略
在hadoop2.0中,datanode数据副本存放磁盘选择策略有两种方式:第一种是沿用hadoop1.0的磁盘目录轮询方式,实现类:RoundRobinVolumeChoosingPolicy.java第二种是选择可用空间足够多的磁盘方式存储,实现类:AvailableSpaceVolumeChoosingPolicy.java选择策略对应的配置项是:[plain] view plain cop...转载 2018-02-24 08:56:56 · 586 阅读 · 0 评论 -
【Hbase学习】Hbase和Hive的区别
hbase 的特点是什么(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。 (2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 (3) Hbase为null的记录不会被存储. (4)基于的表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前的转载 2017-12-28 21:40:24 · 392 阅读 · 0 评论 -
大数据平台Linux基础环境配置
大数据平台Linux基础环境配置公司的大数据平台是在基于Apache开源版本自研发的,用的组件很多,包括但不限于Apache Hadoop,HBase,Hive,Spark,Kafka,Flume,Storm,Druid,ElasticSearch ,多种不同版本的组件组合在一起用于数据量庞大的生产环境,首先需要的就是在Linux基础环境上做一些必要的调整,下面就来说一说,做了哪些基础性的性能原创 2017-11-09 17:40:43 · 3531 阅读 · 0 评论 -
【Hbase学习】snapshot 简介
一.简介Hbase snapshot功能让你对表进行快照而不对 regionserver 产生太多影。快照,克隆 和恢复操作不涉及数据拷贝。而且,将快照导出到其他集群也不会对regionserver有影响。0.94之前的版本,备份或克隆的唯一方法就是利用 Copytable/ExportTable , 或在禁用表后复制HDFS中的所有hfiles。这些方法的缺点是你会降低regionserver的性翻译 2017-12-28 14:35:15 · 1297 阅读 · 0 评论 -
【Hbase学习】regionserver分裂策略
regionserver分裂策略默认的是: org.apache.hadoop.hbase.regionserver.SteppingSplitPolicy其他常用的还有 BusyRegionSplitPolicyConstantSizeRegionSplitPolicy, 公司用的 按固定长度分割region,固定长度取值优先获取table的“MAX_FILESIZE” 值,若没有设定该属转载 2017-12-28 09:47:47 · 1219 阅读 · 0 评论 -
生产环境下的大数据组件版本升级
生产环境下的组件,版本升级有什么需要注意的地方?公司所用的大数据平台是基于原生Hadoop,并且在这之上做了些微调和二次开发。所以在这里写版本号其实意义不太大。但我还是记录一下: Hadoop 2.4.0.xHbase 0.98.xZookeeper 3.4.6.xHive 0.13.xFlume 1.6.0.xKafka 未知Phoenix 未知Spark原创 2017-09-04 09:21:08 · 1072 阅读 · 0 评论