hadoop
文章平均质量分 83
zhujyy110
这个作者很懒,什么都没留下…
展开
-
用 Hadoop 进行分布式并行编程, 第 2 部分
前言 在上一篇文章:“用 Hadoop 进行分布式并行编程 第一部分 基本概念与安装部署”中,介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop,如何运行基于 Hadoop 的并行程序。在本文中,将针对一个具体的计算任务,介绍如何基于 Hadoop 编写并行程序,如何使用 IBM 开发的 Hadoop Eclipse原创 2012-10-30 15:31:35 · 613 阅读 · 0 评论 -
Hadoop error: Bad connection to FS. command aborted.
运行 Hadoop shell代码 hadoop fs -ls 时出现错误如下: Hadoop shell代码 root@ubuntu:/home/chenwq/hadoop/book/ch03/src/main/java# hadoop fs -ls 11/08/31 22:51:37 INFO security.Groups: Gro原创 2013-01-04 15:29:38 · 2412 阅读 · 0 评论 -
使用 Apache Pig 处理数据
Hadoop 的普及和其生态系统的不断壮大并不令人感到意外。Hadoop 不断进步的一个特殊领域是 Hadoop 应用程序的编写。虽然编写 Map 和 Reduce 应用程序并不十分复杂,但这些编程确实需要一些软件开发经验。Apache Pig 改变了这种状况,它在 MapReduce 的基础上创建了更简单的过程语言抽象,为 Hadoop 应用程序提供了一种更加接近结构化查询语言 (SQL) 的接原创 2012-11-16 09:07:59 · 1000 阅读 · 0 评论 -
实践:使用 Apache Hadoop 处理日志
简介: 日志是任何计算系统中一个必不可少的部分,支持从审计到错误管理等功能。随着日志的发展和日志来源数量的不断增加(比如在云环境中),有必要提供一个可扩展的系统来高效处理日志。这篇实践将探讨如何在典型 Linux 系统上使用 Apache Hadoop 来处理日志。 日志形态千差万别,但随着应用程序和基础架构的发展,结果产生了大量对用户有用的分布式数据。从 Web 和邮件服务器到内核和引转载 2012-11-16 09:06:42 · 750 阅读 · 0 评论 -
Hadoop Map/Reduce教程
目的 这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。 先决条件 请先确认Hadoop被正确安装、配置和正常运行中。更多信息见: Hadoop快速入门对初次使用者。Hadoop集群搭建对大规模分布式集群。 概述 Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在原创 2012-11-27 14:24:46 · 2613 阅读 · 0 评论 -
Hadoop集群搭建
目的 本文描述了如何安装、配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群。 如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节。 先决条件 确保在你集群中的每个节点上都安装了所有必需软件。获取Hadoop软件包。 安装 安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。 通原创 2012-11-27 14:00:09 · 2235 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 3部分
一 前言 在本系列文章的第一篇:中,介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop,如何在单机及伪分布式环境 (在一台单机中用多进程模拟) 运行基于 Hadoop 的并行程序。在本系列文章的第二篇:中,介绍了如何针对一个具体的计算任务,基于 Hadoop 编写 MapReduce 并行程序。 本文将介绍真实的原创 2012-10-30 15:51:18 · 7301 阅读 · 0 评论 -
为 MapReduce 框架使用 SQL 类语言
简介 在过去二十年中,计算能力的稳步增强催生了铺天盖地的数据量,这反过来引起计算架构和大型数据处理机制的范式转换。例如,天文学中的强大望远镜、物理学中的粒子加速器、生物学中的基因组测序系统都将海量数据交到了科学家手中。Facebook 每天会收集 15TB 的数据到 PB 级的数据仓库中。在业界(例如,Web 数据分析、点击流分析和网络监控日志分析)和科学界(例如,大规模模拟产生的数据的分析、传原创 2012-11-26 14:06:45 · 2890 阅读 · 0 评论 -
在云中使用 MapReduce 和负载平衡
云计算旨在通过 Internet 提供随需应变的资源或服务,通常视数据中心的规模和可靠性水平而定。MapReduce 是一个为并行处理大量数据而设计的编程模型,它将工作划分为一个独立任务组成的集合。它是一种并行编程,由某种功能随需应变的云(如 Google 的 BigTable、Hadoop 和Sector)提供支持。 在本文中,将使用遵从 Randomized Hydrodynamic Loa原创 2012-11-08 13:56:38 · 641 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践
一、分布式计算开源框架Hadoop实践 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的原创 2012-11-01 14:33:44 · 906 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 1 部分
Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广为人知,其最新的版本号也仅仅是 0.16,距离 1.0 似乎都还有很长的一段距离,但提及 Hadoop 一原创 2012-10-30 15:32:35 · 603 阅读 · 0 评论