Hadoop相关
文章平均质量分 60
wyc09
这个作者很懒,什么都没留下…
展开
-
Hive输入输出记录的过程
Hive作为一款构建于Hadoop之上的数据仓库系统,具有良好的异构数据源普遍适用性。Hive内部处理的是记录(Row),任何数据在被Hive处理之前都需要经过Hive的输入接口转成记录(Row)。在Hive中创建表后,Hive在MetaStore中为表存储了必要的元信息,其中有三项元信息用于指定外部数据的输入输出方式。1)InputFormat。这项元信息是一个实现了Hadoop的数据输入接原创 2014-02-27 11:22:31 · 3145 阅读 · 0 评论 -
Spark客户端Java程序开发Step By Step
STEP 0 搭建Spark集群STEP 1 创建Maven ProjectSTEP 2 编写Java源程序STEP 3 运行原创 2014-04-22 16:43:23 · 5760 阅读 · 3 评论 -
HBase学习笔记
HBase按列族存储HBase的数据模型应用程序使用一个或多个Table存储数据;每个Table包含至少一个预定义的Column Family;每个Column Family可以包含任意数量的Column;对于特定Column,任何Row都可以在Column中使用一个Cell存储一个值;Cell中的值是多版本的。HBase的原子操作提供行范围的原子更新,只更新单行的操作是原子操作,原创 2013-06-19 11:21:13 · 665 阅读 · 0 评论 -
Hadoop学习笔记
Hadoop版本:Hadoop-1.1.1,2012年12月1日发布。Hadoop主要包含两个子项目:一个是MapReduce框架,用于提供MapReduce计算;另一个是分布式文件系统HDFS,为MapReduce计算提供分布式文件存储。MapReduce框架和HDFS是两个独立的子项目,MapReduce框架不是只能使用HDFS支撑MapReduce计算,而HDFS也可以在其他应用场合提供原创 2012-12-07 14:39:36 · 592 阅读 · 0 评论 -
搭建Hadoop集群
Hadoop由HDFS和MapReduce计算框架两部分构成。另有基于Hadoop开发的一些上层应用如HBase、Pig、Hive使得Hadoop更适合解决特定问题或更容易使用。一、HDFS和MapReduce在大数据问题上,HDFS用存储,MapReduce用于计算。尽管Hadoop中的HDFS和MapReduce计算框架可以独立部署、独立使用,但在实际使用过程中通常将二者同时部署。原创 2013-06-09 18:05:53 · 683 阅读 · 0 评论 -
HBase客户端Java API使用总结
HBase版本:HBase 0.95.0-hadoop1客户端程序依赖的库,全部可从HBase的lib目录下找到commons-codec-1.7.jarcommons-configuration-1.6.jarcommons-lang-2.6.jarcommons-logging-1.1.1.jarguava-12.0.1.jarhadoop-core-1.1.2.j原创 2013-06-14 11:15:44 · 2379 阅读 · 0 评论 -
Hive&HBase使用要点
一、HiveHive是一个Hadoop实用工具,为在Hadoop中使用SQL提供了一个界面。Hive自行维护(通常在本地存储系统中)表定义数据,而将表中的记录存储为HDFS中的文件,并使用Hadoop的MR实现对记录的并行访问(导入、查询)。准备使用Hive尽管Hive可以不依赖Hadoop而以本地模式使用,但是结合Hadoop使用通常是Hive的典型使用方式。因此,在使用Hi原创 2013-06-20 11:25:04 · 714 阅读 · 0 评论 -
HBase数据的物理存储
HBase的数据存储方式对于实现自己的数据库产品有借鉴和指导意义,因此总结一下,以作备忘。HBase在文件系统中存储数据,而为了使系统具备良好的扩展性和可用性,一般使用HDFS作为该文件系统。HBase的基本存储单元是Key-Value对,其中Key由行键(Row Key)、列族名称、列修饰符、版本号构成。整个HBase存储系统可以认为是维护了一个大型的Key-Value对集合。理所当然地原创 2013-08-21 13:40:35 · 3957 阅读 · 0 评论 -
在程序中指定Spark和Hadoop的用户
Spark和Hadoop都被设计为多用户共享使用,每个用户程序都关联一个用户,Spark和Hadoop根据该用户授予用户程序对集群相关资源的访问权限。如果是强认证方式,每个用户程序关联的用户不可随意指定,而至少需要提供必要的认证信息(如密码);如果是弱认证方式,则可以在用户程序中指定关联用户,而不需要提供认证信息。Spark(0.8.0版本)使用的是弱认证方式,Hadoop可以配置使用强认证方式(原创 2013-11-15 12:19:05 · 15335 阅读 · 3 评论 -
Spark源码分析
Driver,Master,Worker,Executor每个App通过Driver使用Cluster:首先向Master注册App,然后每个Worker为其创建一个Executor。RDD,Partition,Task每个RDD包含多个Partition,为了计算RDD,在Executor上为RDD的每个Partition创建一个Task负责计算相应的Partition,在一个Exe原创 2013-11-15 17:13:18 · 1906 阅读 · 0 评论 -
MapReduce编程
MapReduce程序不能主动执行,而只能在MapReduce集群的各个结点上由服务器程序(如TaskTracker)调用执行,编写MapReduce程序的主要工作就是实现与调用程序的各种接口。Hadoop中的MapReduce程序需要提供几个接口的实现,下面介绍。不过,为了简化MapReduce编程,Hadoop也提供了许多常用的接口实现,MapReduce程序可以直接拿来使用。下面基于Hado原创 2014-02-14 16:01:32 · 979 阅读 · 0 评论 -
编写Java程序访问Spark环境
Spark本身是使用scala语言编写的,但是Spark提供了访问Spark环境的Java API,使得可以从Java程序中访问Spark环境。原创 2014-02-18 17:59:18 · 2512 阅读 · 1 评论 -
Hadoop中的SequenceFile
SequenceFile是在Hadoop中常用的一种文件格式。文件中存储的是一个个的Key-Value对。根据是否使用压缩以及压缩内容的不同,SequenceFile提供三种Key-Value对存储方式。1)不压缩。文件结构为:文件头 + 顺序出现的各个未经压缩的Key-Value对(每隔若干Key-Value对插入一个16字节的同步标记)。2)分记录压缩。文件结构为:文件头 + 顺序出原创 2014-02-19 10:50:10 · 873 阅读 · 2 评论 -
Hive中的RCFile
Hive中的RCFile是一种按列存储记录的文件格式。RCFile的结构与SequenceFile类似,但是注意,二者并不兼容,不能像读取SequenceFile那样来读取RCFile。RCFile整体上也是存储了一个个的Key-Value对,其结构为:文件头 + 顺序出现的Key-Value对(每隔几个Key-Value对插入一个同步标记)。相比SequenceFile的文件头,RCFile原创 2014-02-19 11:29:41 · 984 阅读 · 0 评论 -
Hive查询在MapReduce上的执行过程
Hive查询首先被转换成物理查询计划,物理查询计划通常包含多个MapReduce作业,而一个MapReduce作业的输出可以作为另一个MapReduce作业的输入。Hive为Hive查询设计的MapReduce作业有固定的模式:Mapper类为org.apache.hadoop.hive.ql.exec.ExecMapper,Reducer类为org.apache.hadoop.hive.ql.e原创 2014-02-27 18:46:38 · 3926 阅读 · 0 评论 -
理解MapReduce哲学
Google工程师将MapReduce定义为一般的数据处理流程。一直以来不能完全理解MapReduce的真义,为什么MapReduce可以“一般”?最近在研究Spark,抛开Spark核心的内存计算,这里只关心Spark做了什么。在Spark上的所有工作都是围绕数据集进行,包括创建新的数据集、对数据集的转换、对数据集的归约。对于实际应用中的数据处理流程,Spark的这些似乎足够了,足够形成原创 2013-07-01 16:24:46 · 980 阅读 · 0 评论 -
MapReduce新版客户端API源码分析
使用MapReduce新版客户端API提交MapReduce Job需要使用 org.apache.hadoop.mapreduce.Job 类。JavaDoc给出以下使用范例。// Create a new JobJob job = new Job(new Configuration());job.setJarByClass(MyJob.class);// Specify vario原创 2013-07-04 12:48:26 · 1088 阅读 · 0 评论 -
MapReduce排序程序
1 输入数据import java.io.DataOutputStream;import java.util.Random;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;/** * 随机生成一批原创 2014-11-25 11:21:29 · 912 阅读 · 0 评论