hadoop
文章平均质量分 60
黑皮磊
这个作者很懒,什么都没留下…
展开
-
Hive拓展
1 数据集成?数据同步,抽数,导数离线数仓,离线同步数据同步的时候几个必要的东西1.数据源包括从哪里来,到哪里去可以是数据库,也可以是别的,比如FTP,ES等2.表来源表 目标表3.字段映射关系4.同步方式/同步逻辑比如从mysql到hive先清空hive表的某些分区,再插入,全删全插直接插入hive到mysql呢?全删全插直接插入主键冲突updatehive到mysql,我们公司称为“回流”同步方法1.直接对m原创 2022-04-10 18:46:24 · 2059 阅读 · 0 评论 -
简单描述什么是hadoop?
1.狭义数据存储: HDFS数据计算: MapReduce资源和计算作业调度分配: YARN谁最重要?个人理解 数据存储 计算跟调度相辅相成。2.广义:hadoop生态圈的所有软件(模块)hive sqoop HBASE kafka spark flink(偏实时)等离线数仓 实时数仓...原创 2022-03-14 21:01:04 · 2225 阅读 · 0 评论 -
CDH和Hadoop的区别
1.hadoop有几个版本?2.CDH有几种安装方式?3.CDH在安装认证方面做了什么改变?----------------------------------------------------------------------------------------------------------------------------Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有.原创 2022-03-14 21:03:14 · 5040 阅读 · 0 评论 -
阿里云上Hadoop的安装
1.创建新用户useradd heipilei2.heipilei用户下创建所需文件夹mkdir sourcecode software app log lib data tmp shell3.将下载好的hadoop java 文件上传到 software下software 目录下 rz4.将hadoop java 解压到 用户app下tar -xzvf hadoop-3.1.3.tar.gz -C ../app/tar -xzvf jdk-8u212-linux-x64.t原创 2022-03-15 01:48:05 · 2989 阅读 · 0 评论 -
Hadoop Wordcount案例用Java编写MapReduce
1.Maven 本地环境搭建,请看上一篇文章本地Maven环境配置2.打开Ieda工具,新建Mavenpeoject3.编写Mapper类package WC;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Map原创 2022-03-30 02:10:36 · 1690 阅读 · 0 评论 -
Hadoop一定会问的面试题 (MapReduce)
1.hadoop解决数据倾斜的方法。首先什么是数据倾斜?以及现象比如一个文件 a b ca 一亿个 map1b 1个 map2c 1个 map3做wordcount以及现象: map1 99% map2 100% mp3 100%如何解决数据倾斜:1.combiner (a,1),....(a,1)->(a.1亿) 减少网络传输但是avg不适合,如果导致数据倾斜的文件的key分布在很多文件中,不同的mapper 这种就不太适用2.如果导致数据倾斜..原创 2022-03-30 03:17:17 · 765 阅读 · 0 评论