hadoop系列
文章平均质量分 90
明星it
这个作者很懒,什么都没留下…
展开
-
记录ResourceManager选主失败的一次case
前段时间在clouderamanager管理集群的时候,需要重启集群,但是重启集群后发现两个ResourceManager都处于备用状态,也就是没有选出主RM原创 2021-01-29 17:33:32 · 771 阅读 · 1 评论 -
hdfs的acl权限控制
ACL(Access Control Lists,访问控制列表),Hadoop中的acl与unix中的acl机制(posix模型)基本相同,可以为文件或目录提供更精细化的权限访问控制。对于每个文件或目录而言,权限管理分为3个不同的用户类:owner,group和others。每个用户类有3种不同的访问权限:read,write,execute。当一个用户试图访问一个文件系统对象时,hdfs会根据该用户所对应的权限进行验证:如果该用户是其所有者(owner),那么hdfs将检查owner类权限;如果.原创 2020-06-10 15:30:14 · 1178 阅读 · 1 评论 -
hdfs数据块丢失处理
查看修复HDFS中丢失的块检测缺失块1 hdfs fsck -list-corruptfileblocks1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica查看上面某一个文件的情况1 hdfs fsck /path/to/corrupt/file -locations -blocks -files解决方法如果文件不重...原创 2020-03-30 11:09:52 · 1317 阅读 · 0 评论 -
分布式系统理论之Quorum机制
一,Quorum机制介绍在分布式系统中有个CAP理论,对于P(分区容忍性)而言,是实际存在 从而无法避免的。因为,分布系统中的处理不是在本机,而是网络中的许多机器相互通信,故网络分区、网络通信故障问题无法避免。因此,只能尽量地在C 和 A 之间寻求平衡。对于数据存储而言,为了提高可用性(Availability),采用了副本备份,比如对于HDFS,默认每块数据存三份。某数据块所在的机器宕机了,...转载 2020-02-21 15:15:06 · 1142 阅读 · 0 评论 -
mapreduce处理中文输入和输出
此文章对于mapreduce处理中文输入和输出做了很好的阐述,遇到此问题值得参考转载 2015-12-21 14:23:58 · 2510 阅读 · 1 评论 -
sqoop从hbase导出数据到mysql
使用sqoop从hbase导出数据到mysql原创 2016-06-02 13:29:15 · 8355 阅读 · 3 评论 -
mapreduce操作hbase
mapreduce操作hbase转载 2016-06-15 11:09:13 · 547 阅读 · 0 评论 -
hadoop中mr处理大量小文件
mapreduce怎么处理大量小文件原创 2016-06-30 20:42:20 · 6598 阅读 · 0 评论 -
mapreduce多目录输出(MultipleOutputFormat和MultipleOutputs)
hadoop中mapreduce的多目录输出转载 2016-05-28 14:28:07 · 3935 阅读 · 0 评论 -
sqoop无法导出parquet文件到mysql
1.问题描述在CDH集群中我们需要将Hive表的数据导入到RDBMS数据库中,使用Sqoop工具可以方便的将Hive表数据抽取到RDBMS数据库中,在使用Sqoop抽取Hive Parquet表时作业执行异常。Sqoop抽数脚本:sqoop export \--connect jdbc:mysql://localhost:3306/test_db \--username root \--passw...转载 2018-06-08 14:56:59 · 5040 阅读 · 0 评论 -
Hadoop中SequenceFile的使用
本文章详细叙述了hadoop中SequenceFile的使用,包括普通的使用方法及在mapreduce中的使用原创 2014-10-13 13:42:56 · 4918 阅读 · 0 评论 -
浅谈hadoop中mapreduce的文件分发
DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)原创 2014-05-29 18:22:11 · 4008 阅读 · 3 评论 -
mysql的安装以及和mapreduce的交互
1、MySQL安装MySQL下载地址:http://www.mysql.com/downloads/1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装 第一步:双击"msi"安装文件,出现如图1.1-1界面——"MySQL安装向导"转载 2013-10-09 14:16:48 · 7456 阅读 · 0 评论 -
多map/reduce执行
学习hadoop,必不可少的就是写MapReduce程序,当然,对于简单的分析程序,我们只需一个MapReduce就能搞定,这里就不提单MapReuce的情况了,网上例子很多,大家可以百度Google一下。对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行分析计算。 多Job或者多MapReduce的编程形式有以下几种:1、迭代式MapR转载 2013-10-12 14:14:09 · 1956 阅读 · 0 评论 -
Map/Reduce的GroupingComparator排序
一、背景排序对于MR来说是个核心内容,如何做好排序十分的重要,这几天写了一些,总结一下,以供以后读阅。二、准备1、hadoop版本是0.20.22、输入的数据格式(这个很重要,看清楚格式),名称是secondary.txt:[java] view plaincopyabc 123 acb 124 cbd 523 abc转载 2013-10-22 16:34:01 · 1054 阅读 · 0 评论 -
hive中order by,sort by,distribute by,Cluster By的区别
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b原创 2013-11-20 15:17:11 · 1476 阅读 · 1 评论 -
map/reduce二次排序
mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程) public static class Map extends Mapper public static class Reduce extends Reducer 1 首先说一下工作原理:在map阶段,使用jo转载 2013-11-06 18:01:24 · 1278 阅读 · 0 评论 -
mapreduce Shuffle过程详解
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2013-11-14 13:47:56 · 18219 阅读 · 0 评论 -
hadoop异常大全
异常一:could only be replicated to 0 nodes, instead of 1 方法一 错误 :(hadoop)could only be replicated to 0 nodes, instead of 1 现象:namenode端的namenodelog一直报could only be replicated to 0 nodes, instead of原创 2013-12-10 11:21:10 · 8023 阅读 · 3 评论 -
cdh4.1.2 hadoop和oozie集成问题
安装oozie的时候,碰到了好多好多问题,都通过网上搜索找到答案解决,在这里总结一下原创 2014-04-28 17:07:20 · 1931 阅读 · 0 评论 -
reduce个数到底和哪些因素有关
reduce的个数到底和什么相关,本问题详细阐述了这个问题原创 2014-06-12 11:01:43 · 6653 阅读 · 1 评论 -
Hadoop管理员的十个最佳实践
大多数管理员都是从Apache Hadoop开始学习。笔者最开始也使用Apache版本Hadoop进行开发和部署工作,但接触到Cloudera CDH后,我发现它可以使管理员的工作更简单,不仅可以获得最新的特性和Bug修复,有时也会带来令人惊喜的性能改善。AD:2013云计算架构师峰会精彩课程曝光接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的转载 2013-10-08 14:48:53 · 947 阅读 · 3 评论