Hadoop
文章平均质量分 77
Linux、Hadoop、ZooKeeper
小基基o_O
GitHub:https://github.com/AryeYellow
码云:https://gitee.com/arye
展开
-
监控HDFS每天数据增量(Python2实现)
文章目录监控HDFS每天数据量hadoop fs -dfCDH截图apache截图,待补充,不造一不一样HIVE建表Python脚本#!/usr/bin/python2import subprocesssubprocess.check_output('hadoop fs -df', shell=True)定时任务,每天零点执行...原创 2021-11-29 09:02:36 · 2089 阅读 · 0 评论 -
大数据(2i)Hadoop集群高可用
High AvailabilityNameNode高可用YARN高可用ZooKeeper配置Hadoop集群高可用QJM:Quorum Journal ManagerZooKeeperFailoverControler:自动故障转移QJM集群+ZooKeeper配置NameNode高可用ResourceManager高可用Hadoop高可用原创 2021-01-11 09:52:02 · 842 阅读 · 0 评论 -
大数据(2h)ZooKeeper
zookeeper安装zookeeper集群部署分布式的共享命名空间大数据分布式应用程序协调服务zookeeper是开源的分布式应用程序协调服务,用于配置维护、域名服务、分布式同步、组服务、Hadoop集群高可用原创 2021-01-03 19:17:32 · 1016 阅读 · 0 评论 -
YARN公平调度器-原理和入门配置
Fair Scheduler公平调度器支持多队列在同一条叶子队列上,所有作业可以并发;资源分配的依据:时间尺度、优先级、资源缺额…默认情况下,所有用户共享一个名为default的队列配置原创 2022-04-24 00:22:48 · 2515 阅读 · 0 评论 -
YARN调度器【capacity-scheduler.xml】默认配置
常见调度器先进先出调度器容量调度器公平调度器多队列多队列配置默认配置文件【capacity-scheduler.xml】先进先出调度器first-in first-out schedulerIFIO Scheduler先入队的先出队先入队的会阻塞后入队的可以配置:1、每个用最大占比,防止单个用户把资源占满????2、限制哪些用户可以提交应用容量调度器相当于 多个 IFIO默认最大容量容量最大可以借到多少公平调度器容量调度器 多队列原创 2021-04-23 21:09:15 · 1349 阅读 · 0 评论 -
HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}
报错Please check whether your etc/hadoop/mapred-site.xml contains the below configuration:<property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}</value>&原创 2021-04-16 13:06:25 · 2501 阅读 · 0 评论 -
能否删除Hadoop里的点cmd文件?
能否删除Hadoop里.cmd后缀文件?场景在Linux上安装Hadoop集群后,使用命令时经查阅,.cmd后缀文件是用于Windows系统经试验,删除.cmd文件后,命令直接补全,且暂未见异常删除命令rm -f $HADOOP_HOME/bin/*.cmdrm -f $HADOOP_HOME/sbin/*.cmd或find $HADOOP_HOME/bin -name '*.cmd' -deletefind $HADOOP_HOME/sbin -name '*.cmd' -de原创 2021-04-12 14:11:54 · 182 阅读 · 0 评论 -
大数据(2g)MapReduce补充
MR框架切片与MapTask并行度机制FileInputFormat切片机制CombineTextInputFormat切片机制MR框架切片与MapTask并行度机制数据块:Block是HDFS物理上把数据分成一块一块数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储数据输入切片与MapTask并行度机制FileInputFormat切片机制CombineTextInputFormat切片机制MapReduce工作流程Shuffle机制分区排序原创 2022-05-07 22:53:52 · 237 阅读 · 0 评论 -
大数据(2f)HDFS补充
文章目录HDFS数据流写数据流程读数据流程HDFS数据流写数据流程读数据流程dfdu原创 2021-08-19 12:20:00 · 143 阅读 · 0 评论 -
大数据(2e)Hadoop节点增删
文章目录集群规划新增节点新机网络配置复制删除Hadoop的数据和日志修改workers并分发(可选)启动新节点删节点(待)白名单(待)黑名单(待)集群规划服务名Hadoop102Hadoop103Hadoop104hadoop105(新增)HDFS:DataNode1111HDFS:NameNode1HDFS:SecondaryNameNode1YARN:ResourceManager1YARN:NodeManager1原创 2021-04-13 12:19:39 · 838 阅读 · 2 评论 -
大数据(2c)Hadoop集群部署
集群规划1、网络配置2、主机名3、关闭防火墙4、集群间免密登录5、安装JDK和Hadoop5.1、解压、修改用户主5.2、环境变量5.3、配置文件5.3.1、etc5.3.2、sbin6、文件分发7、集群启动8、运行官方示例原创 2020-12-06 21:40:19 · 386 阅读 · 0 评论 -
WIN10配置Hadoop+IDEA+Maven开发环境
Hadoop版本:3.1.3Windows下使用IDEA+Maven搭建本地Hadoop开发环境1、环境变量2、解压3、pom.xml 的 Hadoop依赖4、log4j2.xml(可选)1、环境变量控制面板\系统和安全\系统->高级系统设置->环境变量->系统变量HADOOP_HOME设置值D:\coding\hadoopPath加入%HADOOP_HOME%\bin2、解压下载压缩包,然后解压https://download.csdn.net/download/.原创 2021-04-15 00:07:07 · 669 阅读 · 0 评论 -
如何降低MapReduce延时
文章目录场景降低MapReduce延时的配置补充场景学习过程中(就是数据量很少),HIVE(MapReduce)延时过高本文通过修改配置,降低HIVE(MapReduce)延时降低MapReduce延时的配置之前配置了让MapReduce跑在YARN上<property> <name>mapreduce.framework.name</name> <value>yarn</value></property&g原创 2021-04-24 10:46:09 · 276 阅读 · 0 评论 -
我总能把Hadoop玩坏
rm -rf /opt/*ssh hadoop101 "rm -rf /opt/*"ssh hadoop102 "rm -rf /opt/*"rm -rf /tmp/*ssh hadoop101 "rm -rf /tmp/*"ssh hadoop102 "rm -rf /tmp/*"原创 2021-04-16 16:04:25 · 133 阅读 · 0 评论 -
大数据(2d)历史服务器,日志聚集
文章目录历史服务器日志聚集历史服务器日志聚集原创 2021-04-10 14:15:03 · 271 阅读 · 1 评论 -
大数据(1f)集群规划+版本选择(持续更)
集群规划服务名HadoopHIVEZooKeeperKafkaHBaseAtlas运维原创 2021-04-09 09:26:27 · 632 阅读 · 0 评论 -
大数据(1e)集群启停脚本优化(不定更)
Python集群脚本非高可用Hadoop集群启停高可用Hadoop集群启停ZooKeeper集群启停Kafka集群启停原创 2021-04-19 13:22:58 · 322 阅读 · 0 评论 -
大数据(1d)集群脚本
集群jps集群文件同路径传输集群source环境变量集群启停ZooKeeper群起Kafka群起原创 2021-01-24 10:09:55 · 521 阅读 · 0 评论 -
大数据(1c)集群环境变量,持续更
`source /etc/profile.d/custom.sh`个人专用的集群环境变量环境变量文件hosts集群环境变量source命令集群环境变量source脚本python自动化运维脚本hadoop环境变量profile原创 2021-01-16 10:34:26 · 668 阅读 · 3 评论 -
大数据(1b)虚拟机CentOS7集群网络配置
CentOS7集群网络配置安装Linux基础命令网络配置关闭防火墙设置主机名修改集群网络映射集群间免密登录hosthostname原创 2021-01-24 11:35:22 · 716 阅读 · 0 评论 -
大数据(1a)免密登录、文件传输
非对称加密RSA加密算法SSH免密登录配置单向免密登录集群间免密登录基于免密登录的文件传输scprsync和xsync对称加密:加密和解密使用相同密钥的加密算法非对称加密:加密和解密使用不同密钥的加密算法非对称加密需要成对的公钥(public key)和私钥(private key)公钥加密的数据 只有对应的私钥可以解密私钥加密的数据 只有对应的公钥可以解密RSA加密算法原创 2020-11-27 15:27:58 · 457 阅读 · 1 评论 -
个人设想的冷热数据架构
热数据vs冷数据冷数据 不常访问 放硬盘热数据 常访问 放内存两个接近的商品【A:蛋黄酥】和【B:月饼】假设A和B每年都被访问365次A每天都被访问1次B仅在中秋前被访问365次,其余时间几乎不被访问于是认为:A是热数据,B是冷数据对此,A应长期放内存,以便快速访问;B应长期放硬盘,在中秋前再放到内存冷热转换夏装和冬装 具有季节性夏季时,夏装 成为 热数据,冬装 成为 冷数据冬季时,夏装 成为 冷数据,冬装 成为 热数据原创 2020-12-04 10:41:22 · 277 阅读 · 0 评论 -
大数据(0c)Hadoop概述
Apache是什么Hadoop是什么Hadoop组成HDFSblockNameNodeDataNodeSecondaryNameNodeYARNYARN架构YARN上跑任务流程简图MapReduceMapReduce跑在YARN上简图Apache Software FoundationApache软件基金会开源的分布式系统基础架构Hadoop Distributed File System原创 2021-04-14 14:49:55 · 242 阅读 · 1 评论 -
大数据(0a)整体架构
文章目录定义大数据存储技术大数据处理技术架构图Spark大数据存储技术大数据处理技术数据监控管理技术定时任务离线实时什么是分布式?数据库、数仓、大数据3者区别大数据平台架构HadoopHDFSMapReduceYARNZooKeeperHIVEFlumeSqoopSparkHBase流程设计人员需求原创 2020-12-03 17:11:41 · 479 阅读 · 0 评论