シ風
大数据学习记录与分享!博客已迁移到 https://yuanzhengme.blog.csdn.net/?type=blog Java+大数据
展开
-
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
1.简介想要使用 HDFS API,需要导入依赖 hadoop-client 。如果是 CDH 版本的 Hadoop,还需要额外指明其仓库地址:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="原创 2021-07-27 16:59:53 · 201 阅读 · 0 评论 -
Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
Hadoop fs:使用面最广,可以操作任何文件系统。hadoop dfs 与 hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后者。hadoop fshadoop fs -ls 显示当前目录结构,-ls -R 递归显示目录结构hadoop fs -mkdir 创建目录hadoop fs -rm 删除文件,-rm -R 递归删除目录和文件hadoop fs -put [localsrc] [dst] 从本地加载文原创 2021-07-27 16:57:37 · 1374 阅读 · 0 评论 -
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
1.hadoop yarn 简介Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。2.YARN架构ResourceManagerResourceManager 通常在独立的机器上以后台进程的形式运行,它是整个集群资源的主要协调者和管理者。 ResourceManager 负责给用户提交的所有应用程序分配资源,它根据应用原创 2021-07-27 16:42:29 · 366 阅读 · 0 评论 -
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
1.MapReduce概述Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到Hadoop 集群上用于并行处理大规模的数据集。MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对map 的输出进行排序,然后输入到 reduce 中。MapReduce 框架专门用于 <key,value> 键值对处理,它将作业的输入视为一组 <key,value> 对,并生成一组 <k原创 2021-07-27 16:36:01 · 581 阅读 · 0 评论 -
Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
1.介绍HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。2.设计原理2.1 HDFS 架构HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:NameNode : 负责执行有关 文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。DataNode:负责提原创 2021-07-27 16:22:56 · 1088 阅读 · 0 评论 -
Hadoop【问题记录 03】【ipc.Client: Retrying connect to server:xxx/:8032+InvalidResourceRequestException】解决
起因我使用的是 hadoop-3.1.3 版本,在进行基准测试时,执行以下代码;[root@tcloud mapreduce]# hadoop jar ./hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -size 10kb -resFile home/hadoop/tmp/TestDFSIO.log问题一【Retrying connect to server】无法连接 ResourceM原创 2021-08-16 15:41:26 · 1574 阅读 · 4 评论 -
Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource
报错版本为 hadoop-3.1.3,这个问题出现的原因很多,首先是看报错日志:[root@tcloud sbin]# cd /usr/local/hadoop-3.1.3/logs/[root@tcloud logs]# ll# 查看最新的 resourcemanager 日志[root@tcloud logs]# cat ./hadoop-root-resourcemanager-tcloud.log主要的报错信息如下:Error injecting constructor, java.原创 2021-07-28 17:57:09 · 1055 阅读 · 0 评论 -
Hadoop【问题记录 01】【hadoop-3.1.3 单机版】【Attempting to operate on hdfs namenode as root】
以下内容根据 DoNotStop 的博客进行整理。报错我是在安装 hadoop-3.1.3.tar.gz 单机版后启动时遇到的报错,内容如下:[root@tcloud sbin]# ./start-dfs.shStarting namenodes on [tcloud]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting o原创 2021-07-28 16:58:44 · 143 阅读 · 0 评论 -
Hadoop【环境搭建 05】【hadoop-3.1.3 单机版基准测试 TestDFSIO + mrbench + nnbench + Terasort + sort 举例】
利用hadoop自带基准测试工具包进行集群性能测试,目录 /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-tests.jar使用TestDFSIO、mrbench、nnbench、Terasort 、sort 几个使用较广的基准测试程序# 不带参数运行,会显示示例说明hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hado原创 2021-08-15 20:50:26 · 1343 阅读 · 0 评论 -
Hadoop【环境搭建 04】【hadoop-2.6.0-cdh5.15.2.tar.gz 基于ZooKeeper搭建高可用集群】(部分图片来源于网络)
1.高可用简介Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂。HDFS的高可用实质是主备共享存储系统,不管是zookeeper还是QJM都是这个原理,一下是基于zookeeper的高可用集群搭建。1.1 高可用整体架构HDFS 高可用架构如下:HDFS 高可用架构主要由以下组件所构成:A原创 2021-07-29 11:19:21 · 362 阅读 · 0 评论 -
Hadoop【环境搭建 03】【hadoop-3.1.3 集群版】(附:集群启动&停止Shell脚本)
说明搭建集群首先要进行集群的规划【哪台做主节点,哪些做从节点】,这里简单搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 DataNode 和 NodeManager 服务,但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。集群搭建跟单机版本的差别只体现在配置文件上,然后就是将文件同步给其他集群服务器。1.前置条件【每台服务器】Hadoop 的运行依赖 jdk 我原本安装的是 openjdk11【由于yarn报错,换回了jdk8】。[原创 2021-07-29 10:09:54 · 1177 阅读 · 6 评论 -
Hadoop【环境搭建 02】【hadoop-3.1.3 单机版YARN】(配置、启动及验证)
1. 修改配置进入 ${HADOOP_HOME}/etc/hadoop/ 目录下,修改以下配置:mapred-site.xml[root@tcloud ~]# vim /usr/local/hadoop-3.1.3/etc/hadoop/mapred-site.xml<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn&原创 2021-07-28 15:51:53 · 537 阅读 · 0 评论 -
Hadoop【环境搭建 01】【hadoop-3.1.3 单机版】【Linux环境 腾讯云 CentOS Linux release 7.5.1804】【详细】
我使用的安装文件是 hadoop-3.1.3.tar.gz ,以下内容均以此版本进行说明。1.前置条件Hadoop 的运行依赖 jdk 我安装的 openjdk11。[root@tcloud ~]# java -versionopenjdk version "11" 2018-09-25OpenJDK Runtime Environment 18.9 (build 11+28)OpenJDK 64-Bit Server VM 18.9 (build 11+28, mixed mode)2.配原创 2021-07-27 17:56:49 · 405 阅读 · 0 评论 -
Hadoop【hadoop学习大纲完全总结】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
1.概述2.大数据部门结构3.SSH免密登录原理4.MapReduce原理5.SecondNameNode原理6.单机及集群安装配置7.YARN简单分布式部署配置8.Job作业9.Java开发Job作业流程10.MapReduce运行历史服务器配置原创 2021-08-03 08:30:51 · 439 阅读 · 2 评论