hadoop
zdy0_2004
这个作者很懒,什么都没留下…
展开
-
使用 Hadoop 和 Hive 获取机器数据
使用 Hadoop 和 Hive 获取机器数据存储和供给数据在探索数据存储和供给的基本机制之前,需要考虑您要存储何种信息,如何存储它,以及打算存储多长时间。Hadoop 的一个较大、但并不总是被提出来的问题是,它提供了一个只能附加的数据存储来存储大量信息。尽管此方法听起来似乎非常适合存储机器数据,但它会诱使人们长期存储大量信息。这就带来了问题,不是因为 Ha转载 2015-02-12 14:23:22 · 579 阅读 · 0 评论 -
Hadoop编码解码【压缩解压缩】机制详解(1)
http://blog.csdn.net/mrcharles/article/details/50382336想想一下,当你需要处理500TB的数据的时候,你最先要做的是存储下来。你是选择源文件存储呢?还是处理压缩再存储?很显然,压缩编码处理是必须的。一段刚刚捕获的60分钟原始视屏可能达到2G,经过压缩处理可以减至500MB左右,一张单反照片可能有5MB,经过压缩之后只有400KB,而转载 2015-12-27 16:30:19 · 957 阅读 · 0 评论 -
Hadoop Serialization(third edition)hadoop序列化详解(最新版) (1)
http://blog.csdn.net/mrcharles/article/details/50378381初学java的人肯定对java序列化记忆犹新。最开始很多人并不会一下子理解序列化的意义所在。这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发现序列化这种东西的精髓。谈hadoop序列化之前,我们再来回顾转载 2015-12-27 16:31:33 · 432 阅读 · 0 评论 -
Hadoop Serialization -- hadoop序列化详解 (3)【ObjectWritable,集合Writable以及自定义的Writable】
http://blog.csdn.net/mrcharles/article/details/50409596回顾:前面了解到hadoop本身支持java的基本类型的序列化,并且提供相应的包装实现类:这并不是包含了所有的java数据类型,比如我们要序列化的对象是Object类型的,或者是常用的集合类型list,map那该怎么办呢?别怕,我们hadoop也提供转载 2015-12-27 16:33:54 · 1342 阅读 · 0 评论 -
Hadoop IO 特性详解(2)
http://blog.csdn.net/mrcharles/article/details/50378381这一次我们接着分析文件IO校验的相关代码,看看最底层是如何实现这种大数据集的文件校验的,不得不说设计这个系统的程序员是世界上最具有智慧的一群人,面对复杂难解的问题总是可以找到很好的解决方法。其实对于文件校验这件事情,hadoop为什么重要上一篇文章讲过几个方面,提到的bit r转载 2015-12-27 16:41:00 · 1115 阅读 · 0 评论 -
Hadoop HDFS负载均衡
http://www.cnblogs.com/BYRans/p/5128162.htmlHadoop HDFSHadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统,提供高吞吐量的数据访问,非转载 2016-01-13 20:45:42 · 3197 阅读 · 0 评论 -
HDFS原理介绍
http://www.cnblogs.com/wujing-hubei/p/6005354.html HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。1. 架构分析 基础名词解释:转载 2016-10-27 20:44:59 · 466 阅读 · 0 评论 -
从零自学Hadoop(21):HBase数据模型相关操作下
http://www.cnblogs.com/mephisto/p/5917574.html阅读目录序变量数据模型操作系列索引 序 上一篇,我们讲述了HBase的数据模型相关操作的上部分。 下面我们开始介绍HBase的数据模型相关操作的下部分。变量一:定义变量 这样我们就可以使用t转载 2016-10-20 14:01:59 · 388 阅读 · 0 评论 -
HDFS原理
http://www.cnblogs.com/qq503665965/p/6696675.html 首先说明下,hadoop的各种搭建方式不再介绍,相信各位玩hadoop的同学随便都能搭出来。 楼主的环境: 操作系统:Ubuntu 15.10 hadoop版本:2.7.3 HA:否(随便搭了个伪分布式)文件上传下图描述了Client向HDFS上转载 2017-04-19 10:05:03 · 589 阅读 · 0 评论 -
Hadoop之HDFS原理及文件上传下载源码分析(下)
http://www.cnblogs.com/qq503665965/p/6740992.html 上篇Hadoop之HDFS原理及文件上传下载源码分析(上)楼主主要介绍了hdfs原理及FileSystem的初始化源码解析, Client如何与NameNode建立RPC通信。本篇将继续介绍hdfs文件上传、下载源解析。文件上传 先上文件上传的方法调用转载 2017-04-21 01:32:38 · 1356 阅读 · 0 评论 -
据技术Hadoop入门理论系列之一----hadoop生态圈介绍
http://www.cnblogs.com/gridmix/p/5102694.htmlTechnorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高转载 2016-01-05 17:18:00 · 1322 阅读 · 0 评论 -
Hadoop集群(第5期)_Hadoop安装配置
http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesyst转载 2015-12-19 17:29:49 · 513 阅读 · 0 评论 -
[Hadoop in Action] 第7章 细则手册
http://www.cnblogs.com/zhengrunjian/p/4997379.html向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序 1、向任务传递作业定制的参数 在编写Mapper和Reducer时,通常会想让一些地方可以配置。例如第5章的联结程序被固定地写为取第一个数据列作为联结键。如果用户可转载 2015-11-27 13:17:38 · 436 阅读 · 0 评论 -
高可用Hadoop平台-启航
高可用Hadoop平台-启航1.概述 在上篇博客中,我们搭建了《配置高可用Hadoop平台》,接下来我们就可以驾着Hadoop这艘巨轮在大数据的海洋中遨游了。工欲善其事,必先利其器。是的,没错;我们开发需要有开发工具(IDE);本篇文章,我打算讲解如何搭建和使用开发环境,以及编写和讲解WordCount这个例子,给即将在Hadoop的海洋驰骋的童鞋入个门。上次,我在《网站转载 2015-03-13 23:59:08 · 443 阅读 · 0 评论 -
hadoop源代码组织结构与阅读技巧
hadoop源代码组织结构与阅读技巧http://www.cnblogs.com/archimedes/p/study-hadoop-sourcecode.html按照《搭建Hadoop源代码学习环境》一文中提供的方法,搭建好hadoop的源代码学习环境本文将介绍在 Eclipse 下阅读 Hadoop 源代码的一些技巧, 比如如何查看一个基类有哪些转载 2015-03-22 23:50:06 · 961 阅读 · 0 评论 -
adoop in Action] 第2章 初识Hadoop
http://www.cnblogs.com/zhengrunjian/p/4989036.htmlHadoop的结构组成安装Hadoop及其3种工作模式:单机、伪分布和全分布用于监控Hadoop安装的Web工具 1、Hadoop的构造模块 (1)NameNode(名字节点) Hadoop在分布式计算和分布式存储中都采用了主/从结构。Na转载 2015-11-23 21:11:41 · 462 阅读 · 0 评论 -
Hadoop in Action]第1章 Hadoop简介
http://www.cnblogs.com/zhengrunjian/p/4988625.html编写可扩展、分布式的数据密集型程序和基础知识理解Hadoop和MapReduce编写和运行一个基本的MapReduce程序 1、什么是Hadoop Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。 Hadoop与众不同之处在转载 2015-11-23 21:07:38 · 500 阅读 · 0 评论 -
[hadoop in Action] 第3章 Hadoop组件
http://www.cnblogs.com/zhengrunjian/p/4990967.html管理HDFS中的文件分析MapReduce框架中的组件读写输入输出数据 1、HDFS文件操作 [命令行方式] Hadoop的文件命令采取的形式为:hadoop fs -cmd 其中,cmd是具体的文件命令,而是一组数目可变的转载 2015-11-24 22:20:41 · 456 阅读 · 0 评论 -
Hadoop inAction] 第4章 编写MapReduce基础程序
http://www.cnblogs.com/zhengrunjian/p/4992043.html基于hadoop的专利数据处理示例MapReduce程序框架用于计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的hadoop流式API用于提升性能的Combiner 1、获取专利数据集 获取网址:http://www.nb转载 2015-11-24 22:39:58 · 540 阅读 · 0 评论 -
Hadoop in Action] 第6章 编程实践
http://www.cnblogs.com/zhengrunjian/p/4994969.htmlHadoop程序开发的独门绝技在本地,伪分布和全分布模式下调试程序程序输出的完整性检查和回归测试日志和监控性能调优 1、开发MapReduce程序 [本地模式] 本地模式下的hadoop将所有的运行都放在一个单独的Java虚拟机中完成转载 2015-11-25 23:22:08 · 409 阅读 · 0 评论 -
Hadoop - 实时查询Drill
http://www.cnblogs.com/smartloli/p/4991947.html1.概述 在现实业务当中,存在这样的业务场景,需要实时去查询HDFS上的相关存储数据,普通的查询(如:Hive查询),时延较高。那么,是否存在时延较小的查询组件。在业界目前较为成熟的有Cloudera的Impala,Apache的Drill,Hortonworks的Sting转载 2015-11-24 22:12:09 · 2213 阅读 · 0 评论 -
[Hadoop in Action] 第5章 高阶MapReduce
Hadoop in Action] 第5章 高阶MapReduce链接多个MapReduce作业执行多个数据集的联结生成Bloom filter 1、链接MapReduce作业 [顺序链接MapReduce作业] mapreduce-1 | mapreduce-2 | mapreduce-3 | ... [具有复杂依赖的MapRedu转载 2015-11-25 23:21:09 · 415 阅读 · 0 评论 -
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
https://www.cnblogs.com/xuwujing/p/8322022.html前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为hive默认使用的引擎是MapReduce。因此就将spark作为hive的引擎来转载 2018-01-22 00:00:48 · 1145 阅读 · 0 评论