Hadoop
文章平均质量分 59
yjgithub
这个作者很懒,什么都没留下…
展开
-
[Hadoop]数据复制distcp vs cp
1.需求我们项目中需要复制一个大文件,最开始使用的是hadoop cp命令,但是随着文件越来越大,拷贝的时间也水涨船高。下面进行hadoop cp与hadoop distcp拷贝时间上的一个对比。我们将11.9G的文件从data_group/adv/day=20210526下所有文件复制到tmp/data_group/adv/day=20210526/文件下1.1 查看文件大小hadoop fs -du -s -h data_group/adv/day=2021052611.9 G data_gr原创 2021-05-27 15:07:07 · 1458 阅读 · 0 评论 -
Lambda架构
文章目录1.背景2.为什么要用 Lambda Architecture3.组成3.1 Batch Layer3.2 Speed Layer3.3 Serving Layer4.Lambda Architecture的收益1.背景Q : 大数据系统的关键问题:如何实时地在任意大数据集上进行查询A : 最简单的方法是,直接在全体数据集上运行查询函数得到结果,但是这种方法的计算代码太大,所以不现实...原创 2020-01-08 14:44:25 · 180 阅读 · 0 评论 -
hadoop常用默认端口
Hadoop, HBase, Hive, ZooKeeper默认端口说明原创 2017-02-07 10:23:14 · 1066 阅读 · 0 评论 -
启动hadoop,报错Error JAVA_HOME is not set and could not be found
JAVA_HOME is not set and could not be found原创 2017-08-18 12:51:23 · 1289 阅读 · 0 评论