![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 73
bmyyyyyy
来一JAY个
展开
-
【Hadoop-HDFS-S3】HDFS 和存储对象 S3 的对比
虽然 Apache Hadoop 以前都是使用 HDFS 的,但是当 Hadoop 的文件系统的需求产生时候也能使用 S3。之前的工作经历中的大数据集群存储都是用HDFS,当前工作接触到对象存储S3,在实践中比较两者的不同之处。原创 2024-01-03 14:23:44 · 1492 阅读 · 0 评论 -
【Hadoop-OBS-Hive】利用华为云存储对象 OBS 作为两个集群的中间栈 load 文件到 Hive
本次需求:想将一个集群上的 csv 文件 load 到另一个集群的 Hive 表中,由于两个集群的网络不通,所以利用华为云存储对象 OBS 作为中间栈,从而实现。原创 2023-12-15 10:32:58 · 1019 阅读 · 0 评论 -
【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移
主要说明:1、将表名统一放到服务器文本 hotDataTable 中,按照需要将需要补充数据的表放入文本即可。2、-i 参数:跳过异常,避免文件迁移过程中出现文件不存在等异常情况出现,异常会中断迁移任务。3、-skipcrccheck 参数:跳过 crc 算法校验,会加快数据传输速度。4、-update 与 -delete 参数:按照文件进行校验,B 集群 有的会保存,B 集群 没有的会按照 A 集群 进行迁移,B 集群 多出的会进行删除。(通常update与delete一起使用)原创 2023-12-07 17:28:04 · 907 阅读 · 0 评论 -
【Hadoop-Cos】存储对象Cos通过Java-SDK获取文件数以及数据量大小
【代码】【Hadoop-Cos】存储对象Cos通过Java-SDK获取文件数以及数据量大小。原创 2023-07-07 11:31:13 · 809 阅读 · 0 评论 -
【Hadoop-Cos】存储对象Cos通过Java-SDK获取目录结构
【代码】【Hadoop-Cos】存储对象Cos通过Java-SDK获取目录结构。原创 2023-07-07 11:25:55 · 835 阅读 · 0 评论 -
【Hadoop-CosDistcp-Distcp】通过命令方式将Cos中的数据迁移至HDFS,再将HDFS数据迁移至S3
【Hadoop-CosDistcp-Distcp】通过命令方式将Cos中的数据迁移至HDFS,再将HDFS数据迁移至S3,执行的功能,实际使用根据需求调整并发或去除并发即可。:此 Shell 脚本内置了按照。原创 2023-06-27 15:52:16 · 590 阅读 · 0 评论 -
【Hadoop-Distcp】工具简介及参数说明
【Hadoop-Distcp】工具简介及参数说明,Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用 Map/Reduce 实现文件分发,错误处理和恢复,以及报告生成。Distcp 把文件和目录的列表作为 map 任务的输入,每个任务会完成源列表中部分文件的拷贝。原创 2023-06-27 15:52:12 · 2249 阅读 · 0 评论 -
【Hadoop-Yarn】Yarn的常用命令
【Hadoop-Yarn】Yarn的常用命令(所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)原创 2023-05-05 15:00:25 · 618 阅读 · 0 评论 -
【Hadoop-HDFS】HDFS中Fsimage与Edits详解
在HDFS中,NameNode 保存了整个 HDFS 的元数据信息,而这些数据最终会被持久化到 Fsimage 文件和 EditLog 文件。换而言之,NameNode 的元数据信息由Fsimage和Editlog组成。Fsimage 存放上次 checkpoint 生成的文件系统元数据。EditLog 则存放文件系统的操作日志,也就是用户对目录、文件的每个写操作(包括创建、删除、写入等)都会被记录到 Editlog 文件中。注意。【Hadoop-HDFS】HDFS中Fsimage与Edits详解原创 2023-04-28 17:31:14 · 1973 阅读 · 0 评论 -
【Hadoop-CosDistcp】通过CosDistcp的方式迁移Cos中的数据至HDFS
1、如果已经迁移过的文件,重新启动程序后不会重复迁移,会继续迁移数据。2、迁移完成后执行数据校验脚本,会在 HDFS 指定目录下产生校验清单,如果没有 failed 目录,则没有问题,如果有failed目录,此目录下会生成一个或多个文件,里面记录着校验结果。3、将校验的结果文件进行merge操作后,会在Linux 本地生成一个合并后的文件,将合并后的文件过滤 SRC_MISS 后压缩成 .gz 文件。4、执行补充数据的 Shell 命令,指定此压缩文件。【Hadoop-CosDistcp】通过CosDist原创 2023-04-19 15:30:45 · 606 阅读 · 0 评论 -
【Hadoop-HDFS】HDFS常用操作命令
普通创建:递归创建:-s选项将显示文件长度的汇总摘要,而不是单个文件。-h选项将以“人类可读”的方式格式化文件大小(例如64.0m而不是67108864)(%b),文件名(%n),块大小(%n),复制数(%r),修改时间(%y%Y)【Hadoop-HDFS】HDFS常用操作命令原创 2023-04-04 17:25:04 · 5468 阅读 · 0 评论 -
【Hadoop-Distcp】通过Distcp的方式迁移Hive中的数据至存储对象
将 1000GB 的文件复制到一个由 100 个节点组成的集群,一共分配 2000 个 map 任务(每个节点 20 个 map 任务)所以每个map任务平均复制 512MB 数据。如果数据非常大则有必要限制 map 的数量进而限制带宽和集群的使用(默认情况下,每个集群节点最多分配20个map任务)常规情况下,每个 map 至少复制256MB数据(除非输入的总数据量较少,否则一个 map 就可以完成所有的复制)通过对 distcp 指定 -m 参数,可以减少分配的map任务数。通过查看表详细信息的方式。原创 2023-03-16 17:13:53 · 1250 阅读 · 0 评论 -
【Hadoop-HDFS压测】针对HDFS进行读写性能测试
目录下,如果是CDH版本安装的Hadoop需要自己去对应目录下找。1、如果是Apache版本安装的Hadoop默认在。:总数据量(文件数量×单个文件大小):总数据量(文件数量×单个文件大小),所以需要在服务器中配置。2、此工具测试需要执行。Hadoop环境变量。【Hadoop-HDFS压测】针对HDFS进行读写性能测试原创 2023-03-10 17:29:43 · 1321 阅读 · 0 评论 -
【Hadoop-HDFS-Java】用Java代码对HDFS进行增删改查等操作
【代码】【Hadoop-HDFS-Java】用Java代码对HDFS进行增删改查等操作。原创 2020-12-25 16:09:05 · 424 阅读 · 0 评论 -
【Hadoop-Yarn】工作机制 & job的提交流程 & 调度器
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。原创 2020-12-25 15:49:55 · 939 阅读 · 0 评论 -
【Hadoop-HDFS】HDFS的读写流程 & SNN的数据写入流程
(9)客户端一次次的开始传输,一次次进行校验,直到将第一个 block 传输完成,接下来拿的第二个 block 再次请求 namenode,获取 block 要存储在那些 datanode 上,接下来执行第。(4)如果 namenode 之前返回的部分的 block 地址, 此时客户端接着再次请求 namenode, 获取下一批的 block 地址,执行第四步,以此类推,block 信息, 机架感知原理, 网络拓扑关系, 副本信息 ,本地原则,, 如果不存在直接报错, 如果存在, 接着会。原创 2020-12-25 15:25:18 · 1086 阅读 · 0 评论 -
【Hadoop-MapReduce】MapReduce编程步骤及工作原理
思想分而治之map:负责分的过程reduce:负责合的过程。【Hadoop-MapReduce】MapReduce编程步骤及工作原理原创 2020-12-25 15:41:12 · 1726 阅读 · 0 评论