hadoop生态圈
大帅帅帅呆呆
这个作者很懒,什么都没留下…
展开
-
Mapreduce,hive,spark实现Wordcount
实现worldcount 在给定的文件中,统计输出每一个单词出现的次数 mapreduce: need jar : log4j-core ,junit, hadoop-common ,hadoop-client,hadoop-hdfs - - WCdriver类 psvm //创建Job实例来提供默认配置 Configuration con = new Configu...原创 2019-09-21 14:13:38 · 403 阅读 · 0 评论 -
Hadoop生态圈原理
Hadoop生态圈原理整理 Hadoop 主要架构:HDFS,Mapreduce,Yarn Hdfs功能组件 namenode作用:1.管理文件目录结构 fsimage和Edits 2.管理数据节点Datanode DataNode的作用:具体存储数据的节点 SecondaryNamenode的作用:辅助生成目录镜像,定期加载fsimage和Edits合成新的fsimage返回name...原创 2019-09-21 14:39:11 · 412 阅读 · 1 评论 -
HIve,Spark性能优化
HIve,Spark性能优化 HIve 性能优化 一:map阶段的优化:主要是控制hive任务中的map数量,确定合适的map数,以及每个map处理的合适的数据量 1.适当减少map数的情况:当任务中有许多的小文件,产生很多map,一个map任务的启动时间和初始化时间远远大于逻辑处理的事件,造成资源的浪费。 合并方法如下: set mapred.max.split.size=100000000;/...原创 2019-09-22 10:15:36 · 1293 阅读 · 1 评论