Hadoop
文章平均质量分 59
Hadoop相关文章
陈振阳
我翻开历史一查,这历史没有年代,歪歪斜斜的每页上都写着仁义道德四个字。我横竖睡不着,又仔细看了半夜,才从字缝缝里看出字来。满页都写着两个字是,吃人。
展开
-
What‘s Data Lineage?
Definition - What does Data Lineage mean?Data lineage is generally defined as a kind of data life cycle that includes the data’s origins and where it moves over time. This term can also describe what...原创 2019-04-12 18:25:37 · 1322 阅读 · 0 评论 -
HFTP Guide
HFTP GuideIntroductionHDFS是一个可以让你从远程HDFS集群读取数据的Hadoop文件系统的实现。数据读取通过HTTP,数据都在DataNode上。HFTP是一个只读的文件系统,如果你试图用它写或者修改文件系统的状态,将会抛出一个错误。如果你用多个不同版本的HDFS集群,然后你需要在集群之间移动数据的话,HFTP是非常有用的。HFTP在不同HDFS版本之间都是兼原创 2014-08-19 13:23:42 · 2034 阅读 · 0 评论 -
HDFS Quotas Guide
HDFS Quotas GuideOverviewHDFS允许管理员为多个每个目录设置使用的命名空间和空间的配额。命名空间配额和空间配额独立操作,但是这两种类型的配额的管理和实现非常类似。Name Quotas命名空间配额是一个目录树中该目录下的文件和子目录数量的硬限制。如果超出配额,文件和目录会创建失败。配额会与重命名的目录保持联系。如果重命名操作导致违反配额限制,操作将会失败。原创 2014-08-19 11:49:45 · 1056 阅读 · 0 评论 -
HDFS Permissions Guide
HDFS Permission GuideOverviewHDFS实现了一个文件和目录权限模型,拥有很多POXIS模型的影子。每个文件和目录与一个所有者和一个用户组相关联。文件或目录有各自的用户权限,用户包括所有者,所有者同组的其他用户,所有其他的用户。对于文件来说,r权限代表读文件,w权限代表写或者追加数据到文件。对于目录,r表示可以列出目录的内容,w权限代表可以创建或者删除文件或目录,原创 2014-08-19 10:25:24 · 2381 阅读 · 0 评论 -
Offline Image Viewer Guide
Overview离线Image查看器是一个将HDFS FsImage文件的内容以人类可读的格式输出以允许离线的分析和检查一个Hadoop集群的命名空间。这个工具能够相当快速地处理非常大的image文件,将其转换为几个输出格式中的一个。这个工具在Hadoop版本16之后被增加以处理布局格式。如果此工具不能够处理一个image文件,它将干净地退出。离线Image查看器不需要Hadoop集群正在运行原创 2014-08-18 12:45:12 · 1504 阅读 · 0 评论 -
Offline Edits Viewer Guide
Offline Edits Viewer GuideOverview离线的Edits查看器是一个解析Editslog文件的工具。当前程序需要用于不同格式的转换,包括人类可读的和比本地二进制格式更易编辑XML文件。此工具可以解析Hadoop0.18和机器之后版本的edits格式。这个工具只操作文件,不需要Hadoop集群正在运行。数据格式支持:1.Binary:Had原创 2014-08-18 10:32:33 · 1306 阅读 · 0 评论 -
HDFS Architecture
HDFS ArchitectureIntroductionHDFS是分布式文件系统,它被设计为运行在普通商用硬件之上。它与已经存在的文件系统有很多相似性。但是,也有巨大的不同。HDFS有很高的容错,被设计为部署在低廉的硬件上。HDFS提供为应用程序的数据提供一个高通量的访问,适合有大量数据的应用程序。HDFS放松了一些POSIX的需求,以使可以用流的方式访问文件系统的数据。HDFS最初作为原创 2014-08-17 16:48:31 · 1883 阅读 · 0 评论 -
HDFS Snapshots
概述HDFS快照是只读的文件系统的时间点的复制。快照可以照文件系统的一部分或者整个文件系统。快照的常见用例是数据备份,防止用户错误和灾难恢复。HDFS快照的实现是高效的:1.快照的创建时瞬间的:包括inode查找的时间,代价是O(1)。2.只有在有相对于快照的修改是才耗费内存:内存使用时O(M),M是修改的文件/目录的数量。3.快照不会影响正原创 2014-08-17 11:11:06 · 1243 阅读 · 0 评论 -
ViewFs Guide
简介文件浏览系统(ViewFs)提供了一个管理多个Hadoop文件系统命名空间(或者叫Namespace Volume)的方式。它对于有多个NameNode的联邦集群特别有用。ViewFs与Unix/Linux系统中client side mount tables类似。ViewFs可被用来创建个人命名空间视图,也可以每个集群一个公共的试图。本指南描述了,在有多个集群的Hadoop系统中,每原创 2014-08-15 08:18:14 · 2313 阅读 · 0 评论 -
HDFS Federation
HDFS联邦本指南提供了一个HDFS联邦特性的综述,以及如何配置和管理联邦的集群。背景HDFS有两个主要的层次:1.Namespacea)包含很多的目录,文件和blockb)他提供所有的文件系统操作像创建,删除,修改该和list文件和目录的命名空间2.Block Storage Service有两个部分a)原创 2014-08-13 13:57:43 · 1324 阅读 · 0 评论 -
HDFS Users Guide
目的本文档对于使用HDFS的用户来说是一个起点,不管是作为Hadoop集群的一部分还是一个独立的通用的分布式文件系统。虽然HDFS被设计在很多环境下工作,但是HDFS工作原理的支持将极大的帮助配置的调高和特定集群的故障检测。概览HDFS是Hadoop应用程序使用的主要的分布式存储系统。一个HDFS集群主要包括一个NameNode和多个DataNode,NameNode管理文件系统元数据原创 2014-08-11 12:58:56 · 985 阅读 · 0 评论 -
大数据平台架构实践
说明本篇博客整理自参考内容,完整内容请查看原文章;技术选型MOLAP与Druid相类似的实时数据分析工具,还有Linkedln的Pinot和eBay的Kylin,它们都是基于Java开发的。Druid相对比较轻量级,用的人也多,毕竟开发时间久一些,问题也少一些。Pinot,Linkedln开发的类似于Druid的多维数据分析平台,它的功能实际上要比Druid强大一些,但原创 2018-01-05 14:40:45 · 1971 阅读 · 0 评论 -
org.eclipse.jdt.core.prefs
eclipse.preferences.version=1org.eclipse.jdt.core.compiler.codegen.inlineJsrBytecode=enabledorg.eclipse.jdt.core.compiler.codegen.methodParameters=do not generateorg.eclipse.jdt.core.compiler.codege原创 2016-07-11 20:01:14 · 3888 阅读 · 0 评论 -
eclipse+maven搭建hadoop本地开发环境
我们的目的是搭建一个可以在任何地方使用的hadoop开发环境。创建maven项目创建一个maven项目,什么类型的项目随便引入hadoop配置文件copy hadoop的配置文件到src/main/resources文件中,只考有用的就行,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml等。设置环境变量hadoop的配置文件夹中的配置原创 2015-03-19 17:55:44 · 2554 阅读 · 0 评论 -
Apache Hadoop 2.6.0 新特性
Apache Hadoop 2.6.0发布了,新的稳定版,发布频率和质量越来越高了,增加了很多东西,从安装包的大小就能看出来,直接增加了50M,30%有木有。下面看一下,2.6.0都有啥好东西。Common:1.Hadoop Key Management Server(KMS)是一个基于HadoopKeyProvider API编写的密钥管理服务器。他提供了一个client原创 2014-12-05 11:41:44 · 4256 阅读 · 4 评论 -
Hadoop2.5.2 新特性
今天看了下hadoop官网,2.5.2版本已经发布原创 2014-11-25 15:50:49 · 1437 阅读 · 1 评论 -
执行Cloudera相关命令时出现JAVA_HOME not set
[root@impalaa init.d]# service hadoop-hdfs-namenode startStarting Hadoop namenode:[ OK ]Error: JAVA_HOME is not set and could not be found.[root@impalaa init.d]# find / -name hadoop-env.sh/usr/l原创 2014-08-30 11:25:10 · 6371 阅读 · 0 评论 -
C API libhdfs
C API libhdfsOverviewLibhdfs是一个基于C的HDFS的JNI。它为一部分HDFS的API提供了一个C的 API,以使用C来管理HDFS文件和文件系统。Libhdfs是Hadoop发行版的一部分,预编译文件是$HADOOP_PREFIX/libhdfs/libhdfs.so。The APIsLibhdfs APIs是下面的一部分:Libhdfs的头文件原创 2014-08-19 14:14:05 · 2256 阅读 · 0 评论 -
WebHDFS REST API
Document ConventionsMonospacedUsed for commands, HTTP request and responses and code blocks.User entered values.[Monospaced]Optional values. When the va原创 2014-08-20 14:30:25 · 5635 阅读 · 0 评论 -
Hadoop HDFS over HTTP
Hadoop HDFS overHTTP-Documentation Sets2.4.1HttpFs是一个提供REST HTTP的方式支持所有的HDFS文件系统操作的方式。它与webhdfsREST HTTP API彼此协作。HttpFS可以被用来在运行不同版本的Hadoop集群间传递数据(克服了RPC版本不同的问题),例如使用HadoopDistCP工具。HttpFS可以被用来访问有原创 2014-08-20 15:30:03 · 2127 阅读 · 0 评论 -
Erasure Code
Erasure Code原理 Erasure Code - EC纠删码原理 分布式系统下的纠删码技术(一) – Erasure Code (EC) 分布式系统下的纠删码(二) HDFS ErasureCode方案对比 Hadoop 3.0纠删码(Erasure Coding):节省一半存储空间 Reed Solomon纠删码 为程序员写的Reed-Solomon码解释原创 2018-01-13 17:10:57 · 624 阅读 · 0 评论 -
Merkle Tree
Merkle Tree是Dynamo论文中用到的一个算法,读这篇论文前,我并不知道这个算法,所以找了相关资料了解了解,以便我对论文有更进一步的了解。 什么是Merkle Tree Merkle Tree,是一种树(数据结构中所说的树),网上大都称为Merkle Hash Tree,这是因为 它所构造的Merkle Tree的所有节点都是Hash值。Merkle Tree具有转载 2014-01-25 11:40:45 · 1471 阅读 · 0 评论 -
Copy-On-Write(写入时复制)技术
看google的hdfs论文时看到这个概念。Copy-On-Write属于逻辑快照的一种,还有一种物理快照,百度了一下 ,快照里边概念还挺多,主要是以前没接触过。以后再整理。Copy-On-Write是写入时才复制的意思,找到两个例子1.往磁盘写数据,先写到的是内存里面,只有文件close或flush时才真正写到磁盘。2.某个对象(值)同时赋值给多个变量,这多个变量默认情况下引原创 2013-12-30 11:14:43 · 4990 阅读 · 0 评论 -
租约机制简介(讲的很透彻)
背景和介绍缓存是计算机里广泛使用的一种技术,对降低读取延迟、网络流量和服务器负载都非常有效,但也带来了一致性(Consistency)的问题。所谓一致就是客户端总能读到最新的数据,使用缓存后有可能服务器端的数据已经被修改,但客户端仍然从缓存中读取陈旧的数据。为了保证一致性,有两种常见的解决办法,第一种是轮询(Polling),即每次读取数据时都先询问服务器数据是不是最新的,如果不是就从原创 2013-12-30 09:42:38 · 4449 阅读 · 1 评论 -
手工安装配置Cloudera组件-Impala
安装Impala1.在所有节点安装Impala base2.在集群中安装一个impala-catalog和impala-state-store3.在所有datanode节点安装impala-server4.在部分节点安装impala-shell5.安装其他需要的组件6.环境变量的设置在/etc/defa原创 2014-08-31 10:24:15 · 1526 阅读 · 0 评论 -
手工安装配置Cloudera组件-hive
安装Hive1.yum安装Hive base2.yum安装hive-metastore3.yum安装hive-server2(可多客户端并发)/hive-server(不可并发)4.安装其他需要的组件,可用yum search模糊匹配下,查看有没有想要安装的组件5.环境变量的设置在/etc/default/hive*文原创 2014-08-31 10:20:07 · 1079 阅读 · 0 评论 -
手工安装配置Cloudera组件-Hadoop
安装repohttp://archive-primary.cloudera.com/cdh/存放着cdh1-3的所有文件http://archive-primary.cloudera.com/cdh4/存放着cdh4的所有文件http://archive-primary.cloudera.com/cdh5/存放着cdh5的所有文件安装可以先从上边的地址下载对应的R原创 2014-08-31 10:12:07 · 1980 阅读 · 0 评论 -
InputFormat&OutputFormat
本文的主要目的是从源码级别讲解Hadoop中InputFormat和OutputFormat部分,首先简介InputFormat和OutputFormat,然后介绍两个重要的组件,RecordWriter和RecordReader,再以FileInputFormat和FileOutputFormat为例,介绍一组InputFormat和OutputFormat的实现细节,最后以SqoopInput原创 2014-09-16 11:19:03 · 2372 阅读 · 0 评论 -
HDFS Rolling Upgrade
HDFS Rolling UpgradeIntroductionHDFS 滚动升级允许单独升级每一个HDFS进程。例如,DataNode可以独立于NameNode升级。一个NameNode可以独立于其他的NameNode升级。NameNode可以独立于DataNode和JournalNode升级。Upgrade在Hadoop V2中,HDFS支持NameNode服务的HA和前后兼容原创 2014-08-22 10:35:19 · 2734 阅读 · 0 评论 -
HDFS NFS Gateway
HDFS NFS GatewayOverviewNFS Gateway支持NFSv3,允许HDFS作为客户端本地文件系统的一部分挂载在本地文件系统。目前,NFS Gateway支持和启用了下面的使用模式:1.用户可以在基于NFSv3客户端兼容的操作系统上的本地文件系统上浏览HDFS文件系统。2.用户可以从挂载到本地文件系统的HDFS文件系统上下载文件。3原创 2014-08-21 16:45:33 · 14878 阅读 · 0 评论 -
Hadoop指标框架V2
Package org.apache.hadoop.metrics2 Metrics 2.0Interface SummaryMetricsCollectorThe metrics collector interfaceMetricsInfoInterface to provide immutable meta info for原创 2014-08-21 14:27:55 · 2224 阅读 · 0 评论 -
Hadoop指标框架 V1
Package org.apache.hadoop.metrics这个包定义了一个用来报告性能测量的信息的API。描述这个包定义了一个用来报告性能测量的信息的API。API是抽象的,这样它就可以被各种度量客户机库实现。客户端的选择是可以配置的,同一个应用程序的不同模块可以用不同的指标实现库。子包org.apache.hadoop.metrics.spi抽象的服务接口原创 2014-08-21 14:22:06 · 1101 阅读 · 0 评论 -
Centralized Cache Management in HDFS
Centralized Cache Management inHDFSOverviewHDFS中的集中式缓存管理是一个显式的管理缓存的机制,它允许用户指定被HDFS缓存的路径。NameNode将与磁盘上有所需的Block的DataNode通信,命令其在堆外缓存里缓存Block。HDFS中的集中式缓存管理有许多重要的优势。1.明确地防止频繁使用的数据被赶出内存。当工作集的原创 2014-08-21 13:30:24 · 2336 阅读 · 0 评论 -
HDFS Short-Circuit Local Reads
HDFS Short Circuit Local ReadsBackgroundHDFS中,读操作通常通过DataNode。因此,当一个客户端访问DataNode读一个文件的时候,DataNode从磁盘中读出该文件,然后通过TCK Socket发送到客户端。所谓的“short-circuit”是绕开DataNode,允许客户端直接读一个文件。明显地,当客户端与数据在同一地点时可能会出现这种原创 2014-08-21 09:09:02 · 10341 阅读 · 0 评论 -
Hadoop HDFS over HTTP 2.4.1 - Using HTTP Tools
Security开箱即可用的HttpFS既支持pseudo认证,也支持Kerberos HTTP SPNEGO认证。Pseudo Authentication用Pseudo认证时,用户名必须在HttpFS URL的查询参数里通过user.name=指定。例如:$ curl"http://:14000/webhdfs/v1?op=homedir&user.name=babu"Ke原创 2014-08-20 17:14:18 · 1062 阅读 · 0 评论 -
Hadoop HDFS over HTTP 2.4.1 - Server Setup
Hadoop HDFS over HTTP 2.4.1 -Server Setup本篇文章介绍了如何快速建立一个带Pseudo认证的HttpFS。RequirementsJava 6+ Maven 3+Install HttpFS~ $ tar xzfhttpfs-2.4.1.tar.gzConfigure HttpFS默认情况下,HttpFS假设Hadoop的配原创 2014-08-20 16:47:29 · 1498 阅读 · 0 评论 -
HDFS HA+Federation配置
两个nameservice,ns1和ns2,有两个高可用的NameNode。1.core-site.xml文件 fs.defaultFS hdfs://ns1 dfs.journalnode.edits.dir /home/hihadoop/hadoop/jns原创 2014-08-15 08:18:49 · 1742 阅读 · 0 评论 -
HDFS ViewFs配置
1.core-site.xml文件 fs.defaultFSviewfs://mycluster dfs.journalnode.edits.dir/home/hihadoop/hadoop/jns原创 2014-08-15 08:21:25 · 3023 阅读 · 0 评论 -
Hadoop计算中的Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽转载 2014-03-27 10:51:44 · 947 阅读 · 0 评论 -
关于Hadoop的shuffle
我们知道每个reduce task输入的key都是按照key排序的。 但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。 在map结束之后shuffle要做的事情: map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序工作,以提高效率。io.so原创 2014-03-27 10:55:44 · 806 阅读 · 0 评论