大数据平台Linux基础环境配置

大数据平台Linux基础环境配置 公司的大数据平台是在基于Apache开源版本自研发的,用的组件很多,包括但不限于Apache Hadoop,HBase,Hive,Spark,Kafka,Flume,Storm,Druid,ElasticSearch ,多种不同版本的组件组合在一起用于数据量庞大...

2017-11-09 17:40:43

阅读数 342

评论数 0

localhost与127.0.0.1的区别是什么

localhost与127.0.0.1的区别是什么?相信有人会说是本地ip,曾有人说,用127.0.0.1比localhost好,可以减少一次解析。看来这个入门问题还有人不清楚,其实这两者是有区别的。 1、 localhost也叫local ,正确的解释是:本地服务器 127.0.0.1在w...

2018-06-11 11:40:31

阅读数 700

评论数 0

tps和qps的区别

一、TPS:Transactions Per Second(每秒传输的事物处理个数),即服务器每秒处理的事务数。TPS包括一条消息入和一条消息出,加上一次用户数据库访问。(业务TPS = CAPS × 每个呼叫平均TPS) TPS是软件测试结果的测量单位。一个事务是指一个客户机向服务器发送请求然...

2018-05-04 15:28:54

阅读数 41

评论数 0

Apache Hadoop进行版本升级的操作

3月份,公司最大的集群要从Hadoop2.4升级到Hadoop2.8 ,是一个大版本跨度的升级操作,所以前期对Hadoop2.8版本进行了很多功能和性能方面的验证和测试。同时也拟定了几个升级和回滚方案。由于集群的离线任务一般在夜间,所以夜间的HDFS压力很大,RPC延迟很高,导致集群性能下降,最终...

2018-04-30 11:38:13

阅读数 336

评论数 1

统一认证管理系统(单点登录系统)sso 浅谈

        我所在的公司比较大,内部的各种管理系统和业务系统比较多,然而所有的系统都可以用公司的OA的员工工号和密码直接进行登录 (当然登录界面都是一个就是内部OA门户)。从进入公司以来我就一直有个问题,这是怎么做到的?毕竟假如每个系统一套数据库,那么所有的系统都得同步OA系统的员工账户表,这...

2018-04-30 10:16:46

阅读数 1056

评论数 1

python系统监控常用第三方模块之psutil

最近在github上发现一个DevOps的开源项目叫 Adminset ,是基于Django框架开发的一个自动化运维管理平台。其中用到了一个名为psutil的模块。上网找了一些资料看了一下。下面就整理一下该模块的一些用法,比较简单:首先安装该模块,可以用pip直接安装pip install psu...

2018-04-30 10:11:39

阅读数 263

评论数 1

spark 提交任务

提交任务时常用的选项如下:--class: 程序入口,主类--master: 集群主节点(master)地址 (e.g. spark://23.195.26.187:7077)--deploy-mode: 部署方式 ,在worker上(cluster) 或者是在客户端上 (client) (def...

2018-04-19 11:23:23

阅读数 285

评论数 0

查找并优化参数设置不合理,导致产生大量小文件的Hive任务

背景    公司的数据开发平台上提交了数万个定时任务,有Mapreduce,也有Spark,mapreduce业务大多是基于Hive的定时任务。(我们公司没有用oozie,数据开发平台集成了oozie的任务流功能。)定时任务是由业务方自己提交,并且自己设置相关参数的。所有经常会出现参数设置不合理,...

2018-02-24 20:40:47

阅读数 444

评论数 0

使用dnsmasq快速搭建内网DNS

背景介绍公司有一批测试服务器,之间希望通过自定义的域名进行访问,这样比较方便,但每个人每台机器都维护一个hosts的话会非常麻烦,于是想搭建一个内部的DNS服务器,对自定义的域名进行解析,同时缓存公网的域名。首先,向导的DNS服务器肯定是bind9,但所谓杀鸡焉用牛刀,并且bind9的配置和后期维...

2018-02-24 20:12:58

阅读数 1249

评论数 0

hadoop2.0的datanode多目录数据副本存放策略

在hadoop2.0中,datanode数据副本存放磁盘选择策略有两种方式:第一种是沿用hadoop1.0的磁盘目录轮询方式,实现类:RoundRobinVolumeChoosingPolicy.java第二种是选择可用空间足够多的磁盘方式存储,实现类:AvailableSpaceVolumeCh...

2018-02-24 08:56:56

阅读数 187

评论数 0

Hadoop 环境配置文件hadoop-env.sh 详解

有时间稍微看了一下JAVA虚拟机的相关知识,稍微整理了一下生产环境中的hadoop-env配置。不怎么专业,将就看一下吧。以后有时间再把JAVA虚拟机的知识整理一下。环境参数参数设置参数说明备注HADOOP_OPTS-Djava.net.preferIPv4Stack=true优先使用IPV4,禁...

2018-02-23 20:24:25

阅读数 5671

评论数 0

【Java学习】关于JAVA 的OOM

最近查找了很多关于OOM,甚至于Java内存管理以及JVM的相关资料,发现这方面的东西太多了,竟有一种眼花缭乱的感觉,要想了解全面的话,恐非一篇文章能说清的,因此按照自己的理解整理了一篇,剩下的还需要继续学习。 1.什么是OOM?OOM,全称“Out Of Memory”,翻译成中文就是“内存用完...

2017-12-28 21:45:49

阅读数 62

评论数 0

【Hbase学习】Hbase和Hive的区别

hbase 的特点是什么(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。 (2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 (3) Hbase为null的记录不会被...

2017-12-28 21:40:24

阅读数 159

评论数 0

【Hbase学习】snapshot 简介

一.简介Hbase snapshot功能让你对表进行快照而不对 regionserver 产生太多影。快照,克隆 和恢复操作不涉及数据拷贝。而且,将快照导出到其他集群也不会对regionserver有影响。0.94之前的版本,备份或克隆的唯一方法就是利用 Copytable/ExportTable...

2017-12-28 14:35:15

阅读数 364

评论数 0

【Hbase学习】regionserver分裂策略

regionserver分裂策略默认的是: org.apache.hadoop.hbase.regionserver.SteppingSplitPolicy其他常用的还有 BusyRegionSplitPolicyConstantSizeRegionSplitPolicy, 公司用的 按固...

2017-12-28 09:47:47

阅读数 387

评论数 0

Grafana连接 ntop 数据源

最近公司在推进运维大数据平台的建设,其中前期有一个服务器流量分析的需求。这个服务器流量分析,并不是像 zabbix 这类监控软件可以完成的,虽然我们也在用 zabbix 作为一个基础的监控告警平台,但是这个流量分析需求比较细,需求方想知道:哪台物理机的流量在何时出现高峰(zabbix能做) 这台物...

2017-12-26 20:19:50

阅读数 899

评论数 1

Git 常用命令大全

Git 是一个很强大的分布式版本控制系统。它不但适用于管理大型开源软件的源代码,管理私人的文档和源代码也有很多优势。Git常用操作命令:1) 远程仓库相关命令检出仓库:$ git clone git://github.com/jquery/jquery.git查看远程仓库:$ git remote...

2017-12-26 09:40:36

阅读数 110

评论数 0

生产环境下的大数据组件版本升级

生产环境下的组件,版本升级有什么需要注意的地方? 公司所用的大数据平台是基于原生Hadoop,并且在这之上做了些微调和二次开发。所以在这里写版本号其实意义不太大。但我还是记录一下:          Hadoop 2.4.0.x Hbase 0.98.xZookeeper 3.4.6.xHiv...

2017-09-04 09:21:08

阅读数 218

评论数 0

开始写博客

这是我的第一篇博客,这些年也从网络博客中学习了不少,实际也解决了很多问题。想想自己也该对知识做一个梳理和记录,同时也用自己有限的能力回报给那些辛勤写博客的前辈们。

2017-08-20 16:06:51

阅读数 66

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭