![](https://img-blog.csdnimg.cn/6ed59f03f4194625941144f8ccf777fa.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
bigdatav006——hadoop.v001
BigDataHadoop.v01
yanqi_vip
strove with none, for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor
展开
-
CC00001.hadoop——|Hadoop&Hadoop核心框架.V01|——|Hadoop.v00|报错处理|
附录一:报错处理一:### --- 报错现象:[root@linux121 lib64]# hadoop checknative -a21/08/12 22:00:29 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native21/08...原创 2022-04-06 16:24:00 · 153 阅读 · 0 评论 -
CC00002.hadoop——|Hadoop&Hadoop核心框架.V02|——|Hadoop.v01|课程大纲|
一、大数据解决的是什么问题### --- 大数据技术解决的是什么问题?~~~ 大数据技术解决的主要是海量数据的存储和计算。### --- Hadoop的广义和狭义之分~~~ # 狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:~~~ HDFS:分布式文件系统--》存储:MapReduce:分布式离线计算框架--》~~~ ...原创 2022-04-06 16:24:00 · 180 阅读 · 0 评论 -
CC00003.hadoop——|Hadoop&Hadoop核心框架.V03|——|Hadoop.v02|大数据定义|应用场景|
一、大数据的定义### --- 大数据定义~~~ 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,~~~ 是需要新处理模式才能具有更强的决策力、~~~ 洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。二、大数据的特点### --- 大数据的特点~~~ ...原创 2022-04-06 16:24:00 · 64 阅读 · 0 评论 -
CC00004.hadoop——|Hadoop&Hadoop核心框架.V04|——|Hadoop.v03|大数据发展趋势|从业人员发展路线|
一、[大数据发展趋势及从业人员发展路线]### --- 大数据发展趋势~~~ # 1、2015年党的十八届五中全会提出“实施国家大数据战略”,~~~ 国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,~~~ 国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。~~~ # 2、2017年十九大报告明确 "推动互...原创 2022-04-06 16:25:00 · 70 阅读 · 0 评论 -
CC00006.hadoop——|Hadoop&Hadoop核心框架.V06|——|Hadoop.v06|HDFS/MapReduce/YARN框架|
一、[Hadoop重要组成之HAFS/MapReduce/YARN框架]### --- Hadoop重要组成之HAFS框架~~~ 1、Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块~~~ 2、Hadoop HDFS:(Hadoop Distribute File System )一个...原创 2022-04-06 16:26:00 · 76 阅读 · 0 评论 -
CC00007.hadoop——|Hadoop&Hadoop核心框架.V07|——|Hadoop.v07|基础环境配置|
一、配置环境规划### --- vmware、linux版本~~~ vmware版本:VMware-workstation-full-15.5.5-16285975.exe~~~ Linux版本:CentOS-7-x86_64-DVD-1810.iso### --- Linux主机配置参数~~~ CPU:1块1核~~~ 内存:2G...原创 2022-04-06 16:26:00 · 102 阅读 · 0 评论 -
CC00008.hadoop——|Hadoop&Hadoop核心框架.V08|——|Hadoop.v08|虚拟机环境配置|
一、Apache Hadoop 完全分布式集群搭建### --- 软件和操作系统版本~~~ Hadoop框架是采用Java语言编写,需要java环境(jvm)~~~ JDK版本:JDK8版本### --- 集群:~~~ 知识点学习:统一使用vmware虚拟机虚拟三台linux节点,linux操作系统:Centos7~~~ 项目阶段...原创 2022-04-06 16:27:00 · 259 阅读 · 0 评论 -
CC00009.hadoop——|Hadoop&Hadoop核心框架.V09|——|Hadoop.v09|环境变量配置|
一、[Hadoop完全分布式集群搭建值环境变量配置]:集群规划框架linux121linux122linux123HDFSNameNode、DataNode DataNodeSecondaryNameNode、DataNodeYARNNodeManagerNodeManagerNodeManager、ResourceManager...原创 2022-04-06 16:28:00 · 70 阅读 · 0 评论 -
CC00010.hadoop——|Hadoop&Hadoop核心框架.V10|——|Hadoop.v10|集群组件部署|
一、[Hadoop完全分布式集群搭建值集群规划实施]:集群配置### --- Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置### --- HDFS集群配置~~~ 将JDK路径明确配置给HDFS(修改hadoop-env.sh)~~~ 指定NameNode节点以及数据存储目录(修改core-site.xml)~~...原创 2022-04-06 16:28:00 · 64 阅读 · 0 评论 -
CC00011.hadoop——|Hadoop&Hadoop核心框架.V11|——|Hadoop.v11|rsync-script脚本编写|...
一、[Hadoop完全分布式集群搭建之编写分发脚本]### --- 分发配置:rsync-script命令详解### --- 编写集群分发脚本rsync-script~~~ rsync 远程同步工具~~~ rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。~~~ rsync和scp区别:用rsync做文件的复制要比s...原创 2022-04-06 16:29:00 · 77 阅读 · 0 评论 -
CC00012.hadoop——|Hadoop&Hadoop核心框架.V12|——|Hadoop.v12|集群启动|单节点启动|群启动|
一、[Hadoop完全分布式集群搭建之集群启动]### --- 启动集群注意事项~~~ # 注意:如果集群是第一次启动,需要在Namenode所在节点格式化NameNode,~~~ # 非第一次不用执行格式化Namenode操作!!二、单节点启动### --- 所有节点执行~~~ 输出这句内容说明格式化成功...原创 2022-04-06 16:30:00 · 329 阅读 · 0 评论 -
CC00013.hadoop——|Hadoop&Hadoop核心框架.V13|——|Hadoop.v13|集群测试|
一、集群测试### --- HDFS 分布式存储初体验~~~ 从linux本地文件系统上传下载文件验证HDFS集群工作正常~~~ # 本地hoome目录创建一个文件[root@linux121 ~]# vim test.txthello hdfs ~~~ # 创建一个目录[root@linux121 ~]# hdfs dfs -mkdir ...原创 2022-04-06 16:30:00 · 68 阅读 · 0 评论 -
CC00014.hadoop——|Hadoop&Hadoop核心框架.V14|——|Hadoop.v14|历史日志服务配置|
一、[Hadoop完全分布式集群搭建之历史日志服务器配置] ### --- 在Yarn中运行的任务产生的日志数据不能查看,~~~ 为了查看程序的历史运行情况,需要配置一下历史日志服务器。具体配置步骤如下:### --- 配置mapred-site.xml[root@linux121 hadoop]# pwd/opt/yanqi/servers/had...原创 2022-04-06 16:30:00 · 451 阅读 · 0 评论 -
CC00015.hadoop——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-06 16:31:00 · 54 阅读 · 0 评论 -
CC00016.hadoop——|Hadoop&HDFS.V01|——|Hadoop.v01|HDFS重要概念|
一、HDFS概念### --- HDFS简介~~~ HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统)~~~ 是 Hadoop 核心组成,是分布式存储服务。~~~ 分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,~~~ 它们为存储和处理超大规模数据提供所需的扩展能力。...原创 2022-04-07 13:51:00 · 100 阅读 · 0 评论 -
CC00017.hadoop——|Hadoop&HDFS.V02|——|Hadoop.v02|HDFS之shell命令行客户端|
一、HDFS之shell命令行客户端:Shell命令行操作HDFS### --- 基本语法~~~ bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令### --- 命令大全[root@linux121 hadoop-2.9.2]# bin/hdfs dfsUsage: hadoop fs [generic options] ...原创 2022-04-07 13:52:00 · 56 阅读 · 0 评论 -
CC00018.hadoop——|Hadoop&HDFS.V03|——|Hadoop.v03|HDFS之API客户端|解决文件|权限问题|
一、[HDFS之API客户端解决文件权限问题]### --- JAVA客户端:客户端环境准备~~~ 将Hadoop-2.9.2安装包解压到非中文路径(例如:E:\hadoop-2.9.2)。~~~ 配置HADOOP_HOME环境变量~~~ 配置Path环境变量。~~~ 在IDEA下创建一个Maven工程ClientDemo...原创 2022-04-07 13:53:00 · 320 阅读 · 1 评论 -
CC00019.hadoop——|Hadoop&HDFS.V04|——|Hadoop.v04|HDFS文件上传下载|文件类型判断|
一、上传文件### --- 上传文件~~~ [HDFS之API客户端上传下载文件]~~~ [HDFS之API客户端文件详情及文件类型判断] ~~~ [HDFS分布式文件系统]### --- 编写源代码@Testp...原创 2022-04-07 13:54:00 · 108 阅读 · 0 评论 -
CC00020.hadoop——|Hadoop&HDFS.V05|——|Hadoop.v05|HDFS|IO流操作|文件上传下载|seek读取.v01|
一、[HDFS之API客户端IO流操作]——[文件上传下载]——[seek读取]### --- I/O流操作HDFS~~~ 以上我们使用的API操作都是HDFS系统框架封装好的。~~~ 我们自己也可以采用IO流的方式实现文件的上传和下载。二、文件上传### --- 文件上传~~~ 需求:把本地e盘上的yanqi.tx...原创 2022-04-07 13:55:00 · 173 阅读 · 0 评论 -
CC00021.hadoop——|Hadoop&HDFS.V06|——|Hadoop.v06|HDFS|IO流操作|文件上传下载|seek读取.v02|
一、编程代码:使用IO流操作### --- 上传文件package com.yanqi.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.fs.permission.FsPermission;import o...原创 2022-04-07 13:56:00 · 74 阅读 · 0 评论 -
CC00022.hadoop——|Hadoop&HDFS.V07|——|Hadoop.v07|HDFS读写解析|
一、HDFS读写解析:HDFS读数据流程### --- HDFS读数据流程~~~ 客户端通过Distributed FileSystem向NameNode请求下载文件,~~~ NameNode通过查询元数据,找到文件块所在的DataNode地址。~~~ 挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。~~~ ...原创 2022-04-07 13:57:00 · 230 阅读 · 0 评论 -
CC00023.hadoop——|Hadoop&HDFS.V08|——|Hadoop.v08|HDFS元数据管理机制|NN和2NN.v01|
一、HDFS元数据管理机制### --- [HDFS分布式文件系统]~~~ [HDFS元数据管理机制Namenode、Fsimage及Edits编辑日志]~~~ [HDFS元数据管理机制之2NN及checkpoint机制]~~~ [HDFS元数据管理机制之Fsimage及Edits文件解析]~~~ [HDFS元数据管理机制之CheckP...原创 2022-04-07 13:57:00 · 94 阅读 · 0 评论 -
CC00024.hadoop——|Hadoop&HDFS.V09|——|Hadoop.v09|HDFS元数据管理机制|NN和2NN.v02|
一、Fsimage文件内容### --- 官方地址:https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/HdfsImageViewer.html### --- 查看oiv和oev命令[root@linux121 current]$ hdfs oiv Offline Image V...原创 2022-04-07 13:58:00 · 95 阅读 · 0 评论 -
CC00025.hadoop——|Hadoop&HDFS.V10|——|Hadoop.v10|Hadoop的限额/归档及集群安全模式|
一、Hadoop的限额与归档以及集群安全模式### --- 高级命令~~~ HDFS文件限额配置~~~ HDFS文件的限额配置允许我们以文件大小或者文件个数来限制~~~ 我们在某个目录下上传的文件数量或者文件内容总量,~~~ 以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量### --- 数量限额~~~ ...原创 2022-04-07 13:59:00 · 78 阅读 · 0 评论 -
CC00026.hadoop——|Hadoop&HDFS.V11|——|Hadoop.v11|日志采集案例|
一、日志采集综合案例### --- 日志采集综合案例~~~ [日志采集案例之需求分析]~~~ [日志采集案例之调度功能实现]~~~ [日志采集案例之调度功能实现]~~~ [日志采集之采集上传功能实现]~~~ [日志采集案例之验证及调优]### --- 需求分析~~~ 定时采集已滚动完毕日志文件~~~ ...原创 2022-04-07 13:59:00 · 150 阅读 · 0 评论 -
CC00027.hadoop——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-07 14:00:00 · 50 阅读 · 0 评论 -
CC00028.hadoop——|Hadoop&MapReduce.V01|——|Hadoop.v01|MapReduce编程思想|案例解析|
一、MapReduce编程框架### --- MapReduce思想~~~ MapReduce思想在生活中处处可见。我们或多或少都曾接触过这种思想。~~~ MapReduce的思想核心是分而治之,~~~ 充分利用了并行处理的优势。~~~ 即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。### --- Map...原创 2022-04-07 14:01:00 · 68 阅读 · 0 评论 -
CC00029.hadoop——|Hadoop&MapReduce.V02|——|Hadoop.v02|MapReduce编程规范|
一、MapReduce编程规范及示例编写### --- Mapper类~~~ 用户自定义一个Mapper类继承Hadoop的Mapper类~~~ Mapper的输入数据是KV对的形式(类型可以自定义)~~~ Map阶段的业务逻辑定义在map()方法中~~~ Mapper的输出数据是KV对的形式(类型可以自定义)~~~ 注意:...原创 2022-04-07 14:02:00 · 70 阅读 · 0 评论 -
CC00030.hadoop——|Hadoop&MapReduce.V03|——|Hadoop.v03|WordCount案例之编写本地YARN运行.v01|
一、WordCount代码实现~~~ [WordCount案例之编写Mapper类]~~~ [WordCount案例之Reducer类]~~~ [WordCount案例之Driver类]~~~ [WordCount案例之本地验证] ~~~ [WordCount案例之运行YARN集群]### --- 需求~~~ 在给...原创 2022-04-07 14:02:00 · 81 阅读 · 0 评论 -
CC00031.hadoop——|Hadoop&MapReduce.V04|——|Hadoop.v04|WordCount案例之编写本地YARN运行.v02|
一、运行任务### --- 本地模式~~~ 直接运行会报错:因为没有设置传参~~~ 直接Idea中运行驱动类即可:idea运行需要传入参数:~~~ IDEA.Driver传参:WORDCOUNTDRIVER——>edit configuration~~~ 在program arguments设置参数~~~ 运行结束,去到输...原创 2022-04-07 14:03:00 · 81 阅读 · 0 评论 -
CC00032.hadoop——|Hadoop&MapReduce.V05|——|Hadoop.v05|MapRedice之writable序列化接口|
一、序列化Writable接口~~~ [MapRedice之writable序列化接口]~~~ [MapRedice之writable序列化接口案例part01]~~~ [MapRedice之writable序列化接口案例part02]~~~ [MapRedice之writable序列化接口案例part03]~~~ [MapRedi...原创 2022-04-07 14:04:00 · 114 阅读 · 0 评论 -
CC00033.hadoop——|Hadoop&MapReduce.V06|——|Hadoop.v06|MapReduce原理分析之MapTask运行机制|
一、MapTask运行机制详解:MapTask流程### --- MapReduce原理分析~~~ [MapReduce原理分析之MapTask运行机制]~~~ [MapReduce原理分析之MapTask并行度]### --- 详细步骤:~~~ 首先,读取数据组件InputFormat(默认TextInputFo...原创 2022-04-07 14:05:00 · 74 阅读 · 0 评论 -
CC00034.hadoop——|Hadoop&MapReduce.V07|——|Hadoop.v07|MapReduce原理剖析之切片机制源码解读|
一、切片机制源码阅读~~~ [MapReduce原理剖析之切片机制源码解读] ~~~ [MapReduce原理剖析之ReduceTask工作机制]### --- MapTask并行度是不是越多越好呢?~~~ 默认就是128M;~~~ 答案不是,如果一个文件仅仅比128M大一点点也被当成一个spl...原创 2022-04-07 14:06:00 · 114 阅读 · 0 评论 -
CC00035.hadoop——|Hadoop&MapReduce.V08|——|Hadoop.v08|MapReduce原理剖析之自定义分区|
一、MapReduce原理剖析之自定义分区及ReduceTask数量### --- MapReduce原理剖析之自定义分区及ReduceTask数量~~~ [MapReduce原理剖析之自定义分区及ReduceTask数量] ~~~ [MapReduce原理剖析之自定义分区案例]### --- MapReduce的分区与reduceTask的数量~...原创 2022-04-07 14:06:00 · 61 阅读 · 0 评论 -
CC00036.hadoop——|Hadoop&MapReduce.V09|——|Hadoop.v09|MapReduce原理剖析之自定义分区|
一、编程实现步骤### --- 创建项目:partition### --- Mapperpackage com.yanqi.mr.partition;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce....原创 2022-04-07 14:07:00 · 58 阅读 · 0 评论 -
CC00037.hadoop——|Hadoop&MapReduce.V10|——|Hadoop.v10|MapReduce原理剖析之自定义分区案例|
一、[MapReduce原理剖析之自定义分区案例]:MapReduce中的Combiner:combiner运行机制:### --- MapReduce中的Combiner:combiner运行机制:~~~ Combiner是MR程序中Mapper和Reducer之外的一种组件~~~ Combiner组件的父类就是Reducer~~~ C...原创 2022-04-07 14:08:00 · 66 阅读 · 0 评论 -
CC00038.hadoop——|Hadoop&MapReduce.V11|——|Hadoop.v11|Shutffle机制详解之全排序|分区排序|
一、[Shutffle机制详解之全排序|分区排序]:MapReduce中的排序### --- 排序是MapReduce框架中最重要的操作之一。~~~ MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。~~~ 任何应用程序中的数据均会被排序,而不管逻辑.上是否需要。~~~ 默认排序是按照字典顺序排序,...原创 2022-04-07 14:08:00 · 130 阅读 · 0 评论 -
CC00039.hadoop——|Hadoop&MapReduce.V12|——|Hadoop.v12|shuffle机制详解之GroupingComparat|
一、分区排序(默认的分区规则,区内有序)~~~ 分区排序(默认的分区规则,区内有序)~~~ [shuffle机制详解之GroupingComparator分组]### --- GroupingComparator~~~ GroupingComparator是mapreduce当中reduce端的一个功能组件,~~~ 主要的作用是决定哪些数...原创 2022-04-07 14:09:00 · 69 阅读 · 0 评论 -
CC00040.hadoop——|Hadoop&MapReduce.V13|——|Hadoop.v13|MR reduce端join|
一、MR reduce端join### --- MR reduce端join~~~ [Reduce端Join需求分析] ~~~ [Reduce端Join-Mapper&Bean对象] ~~~ [Reduce端Join-Reducer&Driver实现] ...原创 2022-04-07 14:09:00 · 51 阅读 · 0 评论 -
CC00041.hadoop——|Hadoop&MapReduce.V14|——|Hadoop.v14|MR map端join|
一、MR reduce端Join分析:### --- MR reduce端Join分析:~~~ [Map端join_实现分析]~~~ [Map端join_代码实现]~~~ [Map端join_程序验证]~~~ # 缺点:~~~ 这种方式中,join的操作是在reduce阶段完成,reduce端的处理压力太大,~~~ m...原创 2022-04-07 14:10:00 · 65 阅读 · 0 评论