2013年04月_Dave888Zhou

12月 11月 10月 06月 05月 04月 03月 02月 01月

转载 Hadoop在Facebook的使用－－广告分析

本文整理自：http://cloud.it168.com/a2011/0922/1250/000001250122_1.shtml 发展史随着Facebook网站的使用量增加，网站上需要处理和存储的日志和维度数据激增。在这种环境下对任何一种数据处理平台的一个关键性要求是它必须具有快速的支持系统扩展的应变能力。此外，由于工程资源有限，所以系统必须是可信的，并且易于使用和维护

2013-04-30 17:05:26 3863

转载 Hive体系结构

本文整理自阿里数据平台的官方博客：http://www.alidata.org/archives/category/cloud-computing/hive 1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最

2013-04-29 14:37:11 24775 1

翻译 Hive入门指南

本文整理自Hive官方Wiki的Getting Started部分：https://cwiki.apache.org/confluence/display/Hive/Home 1、安装与配置 Hive是建立在Hadoop上的数据仓库软件，用于查询和管理存放在分布式存储上的大规模数据集。它提供：（1）一系列的工具，可以方便地对数据进行提取/转化/加载（ETL）

2013-04-25 15:59:08 11348

翻译开源软件架构：可扩展的Web架构与分布式系统

本文翻译自：http://www.aosabook.org/en/index.html （卷2第1章）中文版参考了这里的翻译：http://www.oschina.net/translate/scalable-web-architecture-and-distributed-systems 开源软件已成为一些超大型网站的基础组件。并且随着那些网站的发展，围绕它们的架构出现

2013-04-21 17:03:21 10203

转载曹政谈数据分析：数据分析这点事

整理自：http://hi.baidu.com/ncaoz/item/564975db8fcd6495260ae79e先声明一下，按照传统的定义，我还真不是数据分析高手，各种关联算法，只会最简单的一种（话说不少场合还算管用）；各种挖掘技术，基本上一窍不通；各种牛逼的数据分析工具，除了最简单的几个免费统计平台之外，基本上一个都不会用。所以，各种高手高高手请随意BS，或自行忽略。这里说点高

2013-04-17 12:36:39 2588

翻译如何设计伟大产品：要学会讲故事

本文整理自：http://gigaom.com/2013/04/14/why-good-storytelling-helps-you-design-great-products/ 对于产品设计团队来说，他们面临的最大问题是，经常将外观时髦的产品与功能优越的产品混为一谈，而且这种问题屡见不鲜。表面看来，这是一个微不足道的失误，但却会造成十分严重的后果：毕竟，如果用户玩不转你的产品，

2013-04-17 12:35:39 1059

转载知乎圆桌论坛：设计就是生产力

整理自：http://www.zhihu.com/topic/19793502 1、科技新趋势与设计　　交互设计当然离不开硬件和软件的发展变化。什么是科技前行的方向？百度上海移动互联网用户体验负责人MoonMonster总结了13个潜在的趋势，其中包括私有物品智能化、智能家电的变革、机顶盒的战火、语音、体感、社交综合症等。他说：　　如果尝试画一个圈，中间是人，离用

2013-04-17 12:31:50 1934

转载 HDFS设计初探

本文整理自网上多篇文章。 1、HDFS基本概念（1）数据块（block） * HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 * 和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。 * 不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的

2013-04-17 00:37:22 3701

翻译 Yahoo!教程：MapReduce

本文整理自：http://developer.yahoo.com/hadoop/tutorial/module4.html 1、MapReduce基础（1）函数式编程概念 MapReduce 程序是设计用来并行计算大规模海量数据的，这需要把工作流分划到大量的机器上去，如果组件(component)之间可以任意的共享数据，那这个模型就没法扩展到大规模集群上去了

2013-04-16 21:14:52 3772

翻译 Yahoo!教程：Hadoop分布式文件系统

本文整理自：http://developer.yahoo.com/hadoop/tutorial/ 1、问题范围 Hadoop是一个大规模分布式批处理架构，虽然它在单台计算机上也能使用，但它的真正能力是在成百上千计算机上运行时才显现出来，Hadoop可以高效地将大量工作高效地分布到一组计算机上。它能处理多大量的工作？Hadoop面对的处理工作比许多现在系统处理要

2013-04-16 21:03:16 1975

翻译 HDFS架构

本文整理自：http://hadoop.apache.org/docs/stable/hdfs_design.html 1、引言 Hadoop分布式文件系统（HDFS）是一个分布式的文件系统，运行在廉价的硬件上。它与现有的分布式文件系统有很多相似之处。然而与其他的分布式文件系统的差异也是显着的。HDFS是高容错的，被设计成在低成本硬件上部署。HDFS为应用数据提供高吞吐量的访问

2013-04-16 12:20:19 10709 1

原创 Hadoop学习路线图

按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章：用Hadoop进行分布式数据处理第1部分（入门）：http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html 用Hadoop进行分布式数据处理第2部分（进阶）：http://www.ibm.com/developerworks/c

2013-04-14 23:18:53 46894 7

原创搭建Hadoop集群

官方配置手册：http://hadoop.apache.org/docs/stable/ 通常，Hadoop集群里的一台机器被指定为NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker，它们是slaves。 1、先决条件确保在你的集群中的每个节点上都安装了所有必需软件：

2013-04-14 23:07:58 4470