Hadoop
文章平均质量分 89
000X000
这个作者很懒,什么都没留下…
展开
-
大数据必备-HDFS原理
大数据必备-HDFS原理原创 2022-05-28 15:37:30 · 122 阅读 · 0 评论 -
MapReduce分片阶段详解
MapReduce分片阶段详解原创 2022-04-13 16:55:54 · 457 阅读 · 0 评论 -
HDFS 分布式文件系统详解
1. HDFS概述Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFS(Hadoop Distribu.转载 2021-08-24 09:04:46 · 3604 阅读 · 0 评论 -
CDH6.3.2之Kerberos安全认证
问题导读:1、Kerberos认证原理是什么?2、Kerberos如何部署?3、CDH集群如何启用Kerberos?4、如何在Kerberos安全环境使用HFDS?01 PARTKerberos简介 Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、...原创 2020-11-12 14:55:21 · 2204 阅读 · 3 评论 -
CDH6.3.2实战1:安装与配置
问题导读1.CDH6.3.2需要什么安装环境?2.怎样安装CDH6.3.2?3.怎样部署CDH6.3.2?PART 01CM简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。本篇就介绍如何安装CDH,选择的版本为6.3.2PART 02环境准备准备三台测试机,分别为hadoop101,hadoop102,hadoop103。我这里的测试机器的配...原创 2020-11-12 14:44:46 · 906 阅读 · 1 评论 -
Hive SQL 经典优化
问题导读1.怎样优化亿级数据表的查询?2.怎样优化复杂的SQL查询?3.怎样优化使用函数的复杂SQL的查询?HiveSQL经典优化案例一:1.1 将要执行的查询(执行了 1个多小时才出结果):SELECT dt as DATA_DATE,STRATEGY,AB_GROUP,SOURCE, count(distinct case when lower(event) not like '%push%' and event!='corner_mark_show' then udid el.原创 2020-09-28 09:46:20 · 391 阅读 · 0 评论 -
hadoop(2.x)完全分布式最新高可靠安装文档
Hadoop 完全分布式最新高可靠安装文档 问题导读:1.如何配置各个节点之间无密码互通?2.启动hadoop,看不到进程的原因是什么?3.配置hadoop的步骤是什么?4.有哪些配置文件需要修改?5.如果没有配置文件,该如何找到该配置文件?6.环境变量配置了,但是不生效的原因是什么?7.如何查看hadoop2监控页面一、使用新建用户可能会遇到的问题(1)权限问题:对于新手经常使用root,刚开始可以使用,但是如果想真正的学习,必须学会使用其他用户。...原创 2020-09-25 11:08:51 · 196 阅读 · 0 评论 -
Hadoop日常运维问题处理及系统调优
问题导读:1、如何下线一个 datanode 节点?2、某个 datanode 节点磁盘坏掉怎么办?3、NameNode 服务器故障了怎么办?4、Hadoop 如何进行操作系统调优?Hadoop 日常运维问题及其解决方法1. 如何下线一个datanode 节点?当一个datanode节点所在的服务器故障或者将要退役时,你需要在Hadoop中下线这个节点,下线一个datanode节点的过程如下。(1)修改hdfs-site.xml文件如下选项,找到name...原创 2020-08-13 09:33:51 · 895 阅读 · 0 评论 -
Hadoop Spark Flink 比较
1. Hadoop vs Spark vs Flink - 数据处理Hadoop:Apache Hadoop专为批处理而构建。它需要输入中的大数据集,同时处理它并产生结果。批处理在处理大量数据时非常有效。由于数据的大小和系统的计算能力,输出会产生延迟。Spark:Apache Spark也是Hadoop Ecosystem的一部分。它也是一个批量处理系统,但它也支持流处理。Flink...原创 2019-12-20 20:57:22 · 2419 阅读 · 0 评论 -
hadoop MapReduce总体工作机制简述
问题导读:1、如何理解MapTask运行机制?2、如何理解Map阶段机制?3、如何理解ReduceTask 工作机制?4、如何理解MapReduce总体工作机制?MapTask运行机制详解整个Map阶段流程大体如图所示简单概述inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给Outpu...原创 2019-11-22 11:38:28 · 369 阅读 · 0 评论 -
Hadoop 小文件处理与调优经验
HDFS小文件弊端:HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode的内存空间,另一方面就是索引文件过大是的索引速度变慢。解决的方式: 1:Hadoop本身提供了一些文件压缩的方案 2:从系统层面改变现有HDFS存在的问题,其实主要还是小文件的...原创 2019-06-03 09:43:39 · 165 阅读 · 0 评论