![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
abothli
拥有五年的开发工作经验,曾从事过开发,分析,算法,人工智能,机器学习,运维的相关开发工作。
展开
-
yarn调度器
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三种调度器可以...原创 2018-07-02 00:12:34 · 179 阅读 · 0 评论 -
数据导入hive的几种方式
可以通过多种方式将数据导入hive表1.通过外部表导入用户在hive上建external表,建表的同时指定hdfs路径,在数据拷贝到指定hdfs路径的同时,也同时完成数据插入external表。例如:编辑文件test.txt$ cat test.txt 1 hello2 world3 test4 case字段之间以'\t'分割启动hive:$ hiv...原创 2018-07-10 00:09:39 · 2017 阅读 · 0 评论 -
在centos7离线安装CDH5.15
一、配置hostname和hosts1. 三台机器分别设置hostname为(需要重启ECS):master.bd.cn slave1.bd.cn slave2.bd.cn2. 然后三台的/etc/hosts统一配置如下映射:<master.bd.cn的内网IP> master.bd.cn<slave1.bd.cn的内网IP> slave1.bd....原创 2018-08-14 16:04:16 · 5414 阅读 · 1 评论 -
hadoop CDH集群漏洞导致服务器被攻击
一、背景5月5日腾讯云安全团队曾针对攻击者利用Hadoop Yarn资源管理系统REST API未授权漏洞对服务器进行攻击,攻击者可以在未授权的情况下远程执行代码的安全问题进行预警,在预警的前后我们曾多次捕获相关的攻击案例,其中就包含利用该问题进行挖矿,我们针对其中一个案例进行分析并提供响应的安全建议和解决方案。二、漏洞说明Hadoop是一个由Apache基金会所开发的分布式系统基础架...原创 2018-08-19 17:10:53 · 3933 阅读 · 0 评论 -
CHD搭建的环境中,解决用户权限的问题
对CDH用户:对于文件夹/user,注意,这个文件夹的拥有者不是所谓的“root”。实际上,这个文件夹为“hdfs”所有(755权限,这里将hdfs理解为一个属于supergroup的用户)。 所以,只有hdfs可以对文件夹进行写操作。与Unix/Linux不同,hdfs是超级使用者(superuser),而不是root。 因此更改其权限为root。所以,你可以向这个文件夹随意的存、...原创 2018-08-23 21:21:02 · 578 阅读 · 0 评论 -
kafka+flume+hdfs的flume配置文件
#agent命名a1.sources = r1a1.sinks = k1a1.channels = c1#sources配置a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSourcea1.sources.r1.zookeeperConnect = hadoop1:2181,hadoop2:2181,hadoop3:...原创 2018-09-10 18:17:36 · 671 阅读 · 0 评论 -
yarn资源调度参数配置(内存,cpu)
Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceMan...原创 2018-10-25 11:05:11 · 1405 阅读 · 0 评论 -
hadoop所有版本的下载地址
Apache的hadoop下载地址地址:https://archive.apache.org/dist/hadoop/common/CDH的hadoop下载地址地址:http://archive.cloudera.com/cdh5/cdh/5/ 下载案例首先找到下载的地址,然后再后面加上.tar.gz就可以下载了CDH的下载工具都在http://archive.cloud...原创 2018-11-22 19:00:00 · 9604 阅读 · 0 评论 -
Hadoop中怎么快速得到包的路径?
在hadoop用户下执行hadoop classpath命令,我们可以得到运行 Hadoop 程序所需的全部 classpath 信息。然后vi .bash_profile文件)添加:export CLASSPATH=.:/home/hadoop/hadoop-2.6.0-cdh5.5.2/etc/hadoop:/home/hadoop/hadoop-2.6.0-cdh5.5.2/share/ha...原创 2018-07-10 00:08:20 · 1047 阅读 · 0 评论 -
用Ambari一键部署大数据平台
安装前准备先明确几个概念:1. Ambari只能安装Hortonworks Data Platform,即Hortonworks的开源Hadoop,不支持Apach的Hadoop平台;2. 对于已经安装了Apach Hadoop或者其他Hadoop平台的,不能使用Ambari来管理;再说几个注意事项:1. Ambari默认的安装方式是使用yum,从远程下载HDP组件安装,而HDP平台安装...原创 2018-07-09 00:10:04 · 4369 阅读 · 0 评论 -
ganglia监控Hadoop完整部署
安装Ganglia所在集群的环境:linux版本:[root@cloud0 hadoop]# lsb_release -aLSB Version: :core-4.1-amd64:core-4.1-noarch:cxx-4.1-amd64:cxx-4.1-noarch:desktop-4.1-amd64:desktop-4.1-noarch:languages-4.1-amd64:langu...原创 2018-07-08 00:02:55 · 349 阅读 · 0 评论 -
Hadoop版本1安装
Hadoop安装前准备:(所以节点都要做)1.系统:CentOS 6.4 64位2.关闭防火墙和SELinux service iptables status service iptables stop chkconfig iptables off vi /etc/sysconfig/selinux 设置 SELEINUX=disabled SELINUXTYPE=disabled 检查...原创 2018-07-02 00:13:48 · 132 阅读 · 0 评论 -
Hadoop版本2安装
Hadoop安装前准备:(所以节点都要做)1.系统:CentOS 6.4 64位2.关闭防火墙和SELinux service iptables status service iptables stop chkconfig iptables off vi /etc/sysconfig/selinux 设置 SELEINUX=disabled SELINUXTYPE=disabled 检查...原创 2018-07-02 00:14:30 · 216 阅读 · 0 评论 -
什么是MapReduce?MapReduce的运行机制是什么?MapReduce的实现过程
1. MAPREDUCE原理篇(1)Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 1.1 为什么要MAPREDUCE(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序扩展到集群来分...原创 2018-07-03 01:13:23 · 4020 阅读 · 1 评论 -
MapReduce的参数优化,MapReduce计数器的应用
计数器应用在实际生产代码中,常常需要将数据处理过程中遇到的不合规数据行进行全局计数,类似这种需求可以借助mapreduce框架中提供的全局计数器来实现示例代码如下:public class MultiOutputs { //通过枚举形式定义自定义计数器 enum MyCounter{MALFORORMED,NORMAL} stat...原创 2018-07-04 10:10:50 · 337 阅读 · 0 评论 -
什么是Hadoop的HA机制?
Hadoop的HA机制前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA (2)HDFS的HA机制详解通过双namenode消除单点故障双namenod...原创 2018-07-04 10:11:11 · 7417 阅读 · 0 评论 -
hdfs中的基础java脚本
******************************************************************************************** 上传文件 vi CopyFile.java **********************************************************************************...原创 2018-07-05 00:08:51 · 144 阅读 · 0 评论 -
hdfs常用命令
HDFS命令基本格式:Hadoop fs -cmd < args >ls 命令hadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在,否则命...原创 2018-07-05 00:09:05 · 2418 阅读 · 0 评论 -
Cloudera Manager 5和CDH5离线安装
Cloudera Manager 5和CDH5离线安装 前期准备:13台centos6.7(虚拟机部署)=12台(CDH集群)+1台(LAMP展示机器)HostName IP master01 10.255.184.32 master02 10.255.184.33 slave01 10.255.184.34 slave02 10.255.184.35 slave03 10.255.1...原创 2018-07-08 00:02:13 · 1482 阅读 · 0 评论 -
CDH增加新的节点,扩容DataNode报错
可能出的错1 Hive还是Hue启动不起来, 提示ImportError: libxslt.so.1 ... 其实真正的错是缺少libxml2. 但是用yum install libxml2并不能解决的, 要用yum install libxml2-python2 Hue起不来还有一个可能是没有装libxslt, 请用yum install libxslt.x86_643 HDFS或...原创 2018-12-10 14:35:06 · 1138 阅读 · 0 评论