![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 70
Xcoder。
分享大数据学习历程
展开
-
hadoop-yarn资源优化
配置NM的注册资源<property><name>yarn.nodemanager.resource.cpu-vcores</name><value>30</value><discription>每个nodemanager可分配的cpu总核数</discription></property><property><name>yarn.nodemanager.resource.m原创 2021-05-20 17:03:11 · 208 阅读 · 1 评论 -
hbase01-架构原理
1.Habse架构原理1.1)Hbase定义Hbase是一种分布式、可扩展、支持海量存储的NoSQL数据库1.2)数据模型Name Space:命名空间,类似关系数据库database自带两个命名空间:hbase和defaulthbase存放hbase的内部表default存放用户默认创建的命名空间Region:类似关系数据库的表RowHBase表中的每行数据都由一个RowKey和多个Column(列)组成,数据是按照RowKey的字典顺序存储的,并且查询数据原创 2021-05-12 21:30:17 · 194 阅读 · 0 评论 -
hadoop10-HdfsYarn的HA配置
HDFS-HA集群配置步骤1:创建ha文件夹,修改文件所有者所属组(前提杀死hdfs集群)sudo mkdir -p /opt/hasudo chown -R atguigu:atguigu /opt/ha步骤2:准备配置的hadoop集群cp /opt/module/hadoop-3.1.3 /opt/harm -rf /data /logs步骤3:修改配置文件core-siet.xml<configuration> <!-- 指定NameNode的地址 --&g原创 2021-04-27 19:17:54 · 202 阅读 · 0 评论 -
hadoop阶段试题
*【正确】 题目1:*下列关于hadoop中partition描述正确的是?- A、reduce的个数小于分区个数且不等于1的时候会报错- B、默认只有一个reduce,虽然自定义了分区,但不会使用自定义分区类- C、分区个数小于reduce的个数时,会有空文件出现- D、自定义分区的分区号默认从0开始【参考答案】: ABCD(1)如果reduceTask的数量 > getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;(2)如果reduceTask的数原创 2021-04-21 19:15:05 · 2736 阅读 · 0 评论 -
hadoop09-hadoop调优(MR优化)
hadoop调优MR优化数据输入合并小文件除了CombinTextInputFormat还有什么方法合并?使用CombinTextInputFormat合并小文件Map阶段减少溢写(spill)次数减少合并(merge)次数不影响业务需求下,使用combin处理Reduce阶段合理设置map和reduce个数:,并不一定是128M如果性能足够好,可以多划分map提高并行处理效率(虽然会有跨节点读数据,但是比单个maptask处理效率要高)设置map、原创 2021-04-20 19:47:39 · 262 阅读 · 0 评论 -
hadoop08-HDFS的写数据流程(源码)
其实这个流程里面有很多我们值得学习的东西,比如写数据到 DataNode,如何保障数据一致性,如何保障数据在写的时候不丢失,重试如何做的,如何做三备份的?那么这次咱就趴一趴 HDFS 的写数据流程吧。二、往 HDFS 写数据的客户端代码我们用 HDFS 的 api ,从一个写数据的代码开始剖析这个过程:public class TestWriteHdfsFile { public static void main(String[] args) throws IOException {原创 2021-04-18 21:38:57 · 256 阅读 · 0 评论 -
Hadoop总结-阶段面试题(持续更新)
Hadoop阶段面试题HDFSMapReduce1.介绍一下 MR 的工作原理MapTask的工作机制read:通过RecordReader,从输入的InputSplit中解析出一个个kv假设待处理文件/user/input/ss.txt为200m(hadoop默认切片与分块大小为128M)切片大小实现:computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M客户端在提交submit前现获原创 2021-04-18 15:23:01 · 454 阅读 · 0 评论 -
hadoop07-HDFS和MR的java Api
HDFS 和 MR的常用javaApi通用日志配置log4j配置log4j2.xml文件<?xml version="1.0" encoding="UTF-8"?><Configuration status="error" strict="true" name="XMLConfig"> <Appenders> <!-- 类型名为Console,名称为必须属性 --> <Appender type="Cons原创 2021-04-17 22:13:38 · 177 阅读 · 0 评论 -
hadoop04-web页面详解
hdfs标题栏概述数据节点数据节点卷故障快照启动进度实用工具工具栏浏览文件系统日志: hadoop进程日志信息,出现问题时,需要查询日志,关注度一般日志水平指标配置进程线程转储数据节点概述datanodes:显示所有datanode节点信息,关注度一般Datanode Volume Failures:失败的数据节点卷,关注度低snapshot: 快照,关注度低startup progress:启动的过程,关注度低Utilities Bro原创 2021-04-17 19:32:12 · 2013 阅读 · 0 评论 -
hadoop06-Mapper类的源码解析
Mapper类的源码解析1.类型:org.apache.hadoop.mapreduce.Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>2.Mapper的结构: void setup(Context context):在任务执行前调用一次, void map(KEYIN key, VALUEIN value, Context context):为输入分片中的每个键/值对调用一次 void cleanup(Context c原创 2021-04-17 16:03:41 · 186 阅读 · 0 评论 -
hadoop05-map阶段shuffer源码解读
1、Map输出跟踪: 以年份温度的mr程序为示例,进行分析: 【MyMapper.class】context.write(yearT, temperature);//将数据写出 -->【Wrap原创 2021-04-17 15:48:06 · 148 阅读 · 0 评论 -
hadoop03-mapreduce基础
Mapreduce核心思想一个MapTask是一个进程,完全并行MR优缺点优点易于编写开发性能扩展性高,计算资源不够增加资源方便高容错,一台机器挂了,任务会被调配到另外的节点计算适合处理pb级离线数据缺点由于读写磁盘产生大量io开销,不擅长实时计算不擅长流式计算,数据如数据必须是批数据不擅长DAG计算,不能将一个计算结果快速传给下一个算子计算,难以实现spark那样的RDD串行计算MR进程MrAppMaster:负责计算过程调度MapTask:map阶段的数据处理R原创 2021-04-14 19:46:05 · 76 阅读 · 0 评论 -
hadoop2--hdfs的shell操作
HDFS 的shell操作hadoop fs [命令] [文件目录] [文件目录]hdfs内外文件交互# 外部文件->hdfs #文件移动到hdfs -moveFromLocal <localsrc> <dst> 类似put 文件移到hdfs系统中 原src会被删除 -moveToLocal [-crc] <src> <dst> #文件放入hdfs -put [参数][ - | <lo原创 2021-04-12 15:01:19 · 123 阅读 · 0 评论 -
hadoop01--完全分布式的配置
分布式配置模板机配置# 给模板虚拟机yum安装需要的依赖sudo yum install -y epel-releasesudo yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git# 关闭防火墙stop/disable注意阿里云防火墙是firewalld.servicesudo systemctl stop firewalldsudo systemctl d原创 2021-04-12 14:59:05 · 73 阅读 · 0 评论