大数据 hadoop
L-Zhang
这个作者很懒,什么都没留下…
展开
-
Hadoop常用端口和定义方法
Hadoop常用端口和定义方法Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper: 组件 节点 ...原创 2020-01-03 10:35:22 · 504 阅读 · 0 评论 -
mapreduce 作业中 map/reduce 个数的计算
1. 问题描述当在hadoop集群提交mapreduce作业时,map 和 reduce 的个数是如何计算的?2. map个数的计算2.1map个数的计算和分片大小(splitSize)是有关系的,所以我们先看看splitSize的计算公式:long splitSize = Math.max(minSize, Math.min(maxSize, bloc...转载 2019-12-30 10:09:57 · 1060 阅读 · 0 评论 -
Hadoop集群动态增删节点及备份系数调整
Hadoop集群节点的动态增加1. 安装配置节点具体过程参考 《Hadoop集群实践 之 (1) Hadoop(HDFS)搭建》2. 在配置过程中需要在所有的Hadoop服务器上更新以下三项配置$ sudo vim /etc/hadoop/conf/slaves1hadoop-node-12转载 2017-09-21 10:56:33 · 572 阅读 · 0 评论 -
Hbase分析报告(tablename+startrowkey_regionid/-meta-)
Hbase分析报告本文基于环境hadoop-0.16.4 和 hbase-0.1.3 编写Hbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。Hbaes的目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表。Hbase可以直接使转载 2017-09-21 10:20:27 · 2791 阅读 · 0 评论 -
hive收集
hive Hive体系架构 应用 Hadoop和Hive的数据处理流程 管理 hive部署手册 hive元数据中utf8的修改 hive并发调用的运行方式-个人经验篇 hive Cli常用操作(翻译自Hive wiki) hive数据类型(翻译自Hive Wiki) hive 创原创 2017-09-18 13:52:02 · 1312 阅读 · 0 评论 -
hadoop收集
hadoop2 hadoop2升级的那点事情(详解) hadoop 介绍 Hadoop分布式文件系统:架构和设计要点 mapreduce作业流程概论 Hadoop使用场景 管理 hadoop集群部署 hadoop部署注意项 hadoop配置文件说明 hadoop集群默认配置和常用配置原创 2017-09-18 13:49:00 · 942 阅读 · 0 评论 -
数据处理收集
海量数据 那些年Google公开的大数据领域论文 大数据量,海量数据 处理方法总结 布隆过滤器应用 Google Dremel 原理 – 如何能3秒分析1PB Google Spanner原理- 全球级的分布式数据库 悉数那些“巨型”数据仓库 Hadoop在业界的使用情况 淘宝Hadoop集群的概况原创 2017-09-18 13:46:33 · 683 阅读 · 0 评论 -
Journal Storage Directory not formatted
hadoop实现HA后,需要部署三个Journal 节点,来同步namenode数据; 由于线上机器需要,要更好一台部署了Journal 节点的机器,于是停进程更换机器; Journal 节点建议是三个点,另找了台机器部署,启动进程,修改namenode节点的配置信息; 问题: 1.第一次报Journal 的目录没有,于是创建目录; 2.接着又报Journal 的目录没有格式化; 这如何原创 2017-07-04 20:35:23 · 8781 阅读 · 0 评论 -
hadoop MapReduce初试遇到的问题
hadoop MapReduce初试遇到的问题./hadoop jar ./MapReduce-jar-with-dependencies.jar com.hc360.mp.WordCountHbaseReader /user/hbase/tabelname01 tablename在hadoop集群上执行 MapReduce任务时,需要用到许多依赖jar,一般情况下都是在执行时,在执行命令上进行配原创 2017-07-01 16:04:21 · 2634 阅读 · 0 评论 -
hadoop 异常 Inconsistent checkpoint fields
hadoop second namenode异常 Inconsistent checkpoint fields没有访问量情况下,namenode进程:cpu 100% ;内存使用超多;没有错误日志;secondarynamenode报错:java.io.IOException: Inconsistent checkpoint fields.LV = -57 namespaceID = 371613原创 2017-07-01 16:03:27 · 4873 阅读 · 0 评论 -
hdfs-balancer均衡器使用
简介 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添 加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好 地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等 等。可见,保证HDFS中的数据平衡是非常重要的。 在Hadoop中,包含一个Balancer程序,通过运行这转载 2017-07-01 16:03:15 · 8844 阅读 · 0 评论 -
Hadoop维护实战-设置hdfs副本数 dfs.replication
Hadoop维护实战 设置hdfs副本数 dfs.replication有个临时应用,使用临时调配的机器,机器磁盘差别数十倍。在使用hadoop存储数据时导致小磁盘机器使用率达80%多,而大磁盘机器使用不过才10%多一点。明显的hadoop集群各datanode空间使用率很不均衡,需要重新balance。于是想到了hdfs的均衡器balancer。sbin/start-balancer.sh -t原创 2017-07-01 16:03:11 · 18580 阅读 · 2 评论 -
HDFS balancer实践
HDFS balancer在hadoop的hdfs集群中新添加节点后,在新节点上运行./start-balancer.sh。运行的日志信息如下,重复判断、迁移,速度相当慢。为了降低集群负荷、避免干扰其他用户,均衡器被设计为在后台运行。在不同节点之间复制数据的带宽也是受限的,默认值是1MB/s。2 over-utilized: [Source[192.168.70.94:50010, utiliza原创 2017-07-01 15:58:07 · 2622 阅读 · 0 评论 -
Google大数据三论文
在线PDF查看:Google File System中文版Google Bigtable中文版Google MapReduce中文版附件下载:http://down.51cto.com/data/2096615原创 2017-07-01 15:57:58 · 2788 阅读 · 0 评论 -
Hadoop之父Doug Cutting
生活中,可能所有人都间接用过他的作品,他是Lucene、Nutch 、Hadoop等项目的发起人。是他,把高深莫测的搜索技术形成产品,贡献给普罗大众;还是他,打造了目前在云计算和大数据领域里如日中天的Hadoop。他是某种意义上的盗火者,他就是Doug Cutting。从实习生做起1985年,Cutting毕业于美国斯坦福大学。他并不是一开始就决心投身IT行业的,在大学时代的头两年,Cutting转载 2017-07-01 15:57:18 · 9483 阅读 · 1 评论 -
Hadoop HDFS Balancer
Hadoop HDFS Balancer Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是非常重要的。 在Hadoop中,包含一个Balancer程序原创 2017-07-01 15:54:52 · 2483 阅读 · 0 评论