hadoop
Quinto0
Learning is the highest
展开
-
DistCp迁移Hive数据过程中源集群增加删除文件等场景测试
1 概述 由于在数据迁移过程中,上层任务仍在运行,会出现源集群新增文件及删除文件的情况,因此进行测试2 需要同步的数据文件说明 源集群:192.168.40.100:8020,目标集群:192.168.40.200:8020 数据目录及其大小如下1.8 G 5.5 G /user/hive/warehouse/iot.db/dwd_pollution_distcp 这个文件对应的表为dwd_pollution_distcp,共有20140801-20140930这些分区3原创 2020-10-23 17:57:48 · 1811 阅读 · 0 评论 -
Hadoop DistCp工具简介及其参数
1 概述 DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。官网地址:http://hadoop.apache.org/docs/r2.7.0/hadoop-distcp/DistCp.html2 适合的场景及其有点 适合场景:数据异地灾;机房下线,数据迁移等。 优点:①可以限制带宽,使用bandwidth参数对distcp原创 2020-10-23 16:10:35 · 9842 阅读 · 1 评论 -
Hive基础(一)
一、Hive是什么 Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。,它能接收用户输入的sql语句,然后把它翻译成mapreduce程序对HDFS上的数据进行查询、运算,并返回结果,或将结果存入HDFS。要点:HIVE利用HDFS来存储数据文件;利用MAPREDUCE来做数据分析运算;利用SQL来为用户提供查...原创 2018-11-26 21:05:06 · 169 阅读 · 0 评论 -
Hadoop学习之整体介绍及环境搭建
Hadoop学习之整体介绍及环境搭建1 大数据概述1.1 什么是大数据数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材。大数据:传统处理方式无法解决的不仅大而且复杂的数据集的存储和计算。1.2 大数据的四个特性(1)容量(Volume):数据的大小决定所考虑的数...原创 2019-08-04 11:21:56 · 200 阅读 · 0 评论 -
Hadoop学习之HDFS
Hadoop学习之HDFS1 HDFS相关概念1.1 设计思路分散存储,冗余备份。分散存储:大文件被切割成小文件,使用分而治之的思想让多个服务器对同一个文件进行联合管理;冗余备份:每个小文件做冗余备份,并且分散存到不同的服务器,做到高可靠不丢失。1.2 架构主从架构(1)namenode(nn主节点):...原创 2019-08-04 21:58:07 · 275 阅读 · 0 评论 -
Hadoop学习之MapReduce
Hadoop学习之MapReduce目录 Hadoop学习之MapReduce1 MapReduce简介1.1 什么是MapReduce1.2MapReduce的作用1.3MapReduce的运行方式2MapReduce的运行机制2.1 相关进...原创 2019-08-09 19:05:02 · 468 阅读 · 0 评论 -
Hadoop学习之yarn
Hadoop学习之YARN1 YARN简介1.1 概述YARN (Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。YARN 是 Ha...原创 2019-08-11 20:11:47 · 249 阅读 · 0 评论