Hadoop
文章平均质量分 78
xuyuanshu123
这个作者很懒,什么都没留下…
展开
-
Hadoop学习总结:Map-Reduce入门
Hadoop学习总结:Map-Reduce入门1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+00...原创 2011-05-18 10:22:06 · 86 阅读 · 0 评论 -
hbase介绍
hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,Hbase目标主要依靠横向扩展,通过...原创 2011-09-30 10:55:26 · 92 阅读 · 0 评论 -
Hadoop集群网络性能优化:Hadoop机架感知实现及配置
分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。具体到Hadoop集群,由于Hadoop的HDFS对数据文件的分布式存放是按照分块block存储,每个block会有多个...原创 2011-09-29 11:36:02 · 115 阅读 · 0 评论 -
hadoop排序和google三大论文
见附近内容。原创 2011-09-27 15:53:49 · 210 阅读 · 0 评论 -
hadoop的wordcount程序
其实WordCount并不难,只是一下子接触到了很多的API,有一些陌生[code="java"]package com.felix;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.fs.Pat...原创 2011-09-19 16:48:32 · 164 阅读 · 0 评论 -
并行计算和mapreduce
现在MapReduce/Hadoop以及相关的数据处理技术非常热,因此我想在这里将MapReduce的优势汇总一下,将MapReduce与传统基于HPC集群的并行计算模型做一个简要比较,也算是对前一阵子所学的MapReduce知识做一个总结和梳理。 随着互联网数据量的不断增长,对处理数据能力的要求也变得越来越高。当计算量超出单机的处理能力极限时,采取并行计算是一种自然而然的解决之道。在M...原创 2011-09-15 14:18:29 · 1633 阅读 · 1 评论 -
hodoop 伪分布式环境配置
一. 概要 经过几天的调试,终于在Linux Cent OS 5.5下成功搭建Hadoop测试环境。本次测试在一台服务器上进行伪分布式搭建。Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名...原创 2011-05-28 22:03:56 · 202 阅读 · 0 评论 -
基于GFS思想的分布式文件系统KFS
KFS(KOSMOS DISTRIBUTED FILE SYSTEM),不是KFC(肯德基)哦,是一个类似GFS的开源分布式文件系统。自从去年Google 发布了他的几款主要产品gfs,bigtable,map-reduce 的相关文档后,一些牛人就马上行动起来,折腾出来实现类似功能的开源产品了,kfs就是其中之一,主要模仿的是gfs的功能。gfs,bigtable,map-r...原创 2011-05-23 16:05:46 · 227 阅读 · 0 评论 -
Hadoop的实例测试
Hadoop--海量文件的分布式计算处理方案 Hadoop 是Google MapReduce的 一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以 不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间...原创 2011-05-20 10:52:35 · 217 阅读 · 0 评论 -
Hadoop的一些理解及当前的流行应用
:arrow: :arrow: :arrow: :arrow: 想给中小型客户提供存储和灾备服务,研究一下hadoop。根据网上的一些文档,我已经成功搭建起了hadoop集群的环境,一个namenode节点 三个datanode几点 搭建好后,通过web也能正常访问。用wordcount.java上传数据到hdfs中也正常。但是我现在有点迷茫的是,这个已经搭建好的hadoop环境到底能做些...原创 2011-05-20 10:03:22 · 163 阅读 · 0 评论 -
Hadoop配置 快速入门
:D :D :D :D Hadoop快速入门 :D 写在前面: Hadoop是Apache的一个项目,它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Distributed File System),其存储和数据结构很类似Google的...原创 2011-05-20 09:52:31 · 119 阅读 · 0 评论 -
hadoop常见错误
错误1:bin/hadoop dfs 不能正常启动,持续提示:INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s).[color=red]原因:由于 dfs 的部分文件默认保存在tmp文件夹,在系统重启时被删除。[/color]解决:修改core-si...原创 2011-10-10 10:06:27 · 158 阅读 · 0 评论