Hadoop&大数据分析
Dave888Zhou
大处着眼,小处着手;群居守口,独居守心。
展开
-
搭建Hadoop集群
官方配置手册:http://hadoop.apache.org/docs/stable/ 通常,Hadoop集群里的一台机器被指定为NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker,它们是slaves。 1、先决条件 确保在你的集群中的每个节点上都安装了所有必需软件:原创 2013-04-14 23:07:58 · 4444 阅读 · 0 评论 -
Hadoop在百度的应用--4000个节点的分布式集群
1、百度高性能计算系统 本文整理自:http://www.csdn.net/article/2010-11-02/281263?1290758548 百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集群,最大的集群规模在1000个节点以上。每个节点由8核CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。规划当中的架构将有转载 2013-05-05 11:05:57 · 2808 阅读 · 0 评论 -
Hadoop在Last.fm的应用--音乐排行榜
本文整理自:http://cloud.it168.com/a2011/0922/1250/000001250122.shtml Last.fm:社会音乐史上的革命 Last.fm创办于2002年,它是一个提供网络电台和网络音乐服务的社区网站,向用户提供很多服务,例如免费听音乐和音乐下载,音乐及重大事件推荐,个性化图表服务以及其他很多服务。每个月大约有2500万人使用Last转载 2013-05-04 16:54:03 · 2594 阅读 · 0 评论 -
Hadoop十大应用领域--从互联网行业到传统行业
本文整理自:http://gigaom2.wordpress.com/2012/06/05/10-ways-companies-are-using-hadoop-to-do-more-than-serve-ads/ 中文版参考自:http://www.csdn.net/article/2012-09-03/2809491-12-ways-companies-are-using-had翻译 2013-05-02 20:48:19 · 12549 阅读 · 0 评论 -
Hadoop在Facebook的使用--广告分析
本文整理自:http://cloud.it168.com/a2011/0922/1250/000001250122_1.shtml 发展史 随着Facebook网站的使用量增加,网站上需要处理和存储的日志和维度数据激增。在这种环境下对任何一种数据处理平台的一个关键性要求是它必须具有快速的支持系统扩展的应变能力。此外,由于工程资源有限,所以系统必须是可信的,并且易于使用和维护转载 2013-04-30 17:05:26 · 3841 阅读 · 0 评论 -
Yahoo!教程:MapReduce
本文整理自:http://developer.yahoo.com/hadoop/tutorial/module4.html 1、MapReduce基础 (1)函数式编程概念 MapReduce 程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没法扩展到大规模集群上去了翻译 2013-04-16 21:14:52 · 3732 阅读 · 0 评论 -
Yahoo!教程:Hadoop分布式文件系统
本文整理自:http://developer.yahoo.com/hadoop/tutorial/ 1、问题范围 Hadoop是一个大规模分布式批处理架构,虽然它在单台计算机上也能使用,但它的真正能力是在成百上千计算机上运行时才显现出来,Hadoop可以高效地将大量工作高效地分布到一组计算机上。 它能处理多大量的工作?Hadoop面对的处理工作比许多现在系统处理要翻译 2013-04-16 21:03:16 · 1968 阅读 · 0 评论 -
HDFS设计初探
本文整理自网上多篇文章。 1、HDFS基本概念 (1)数据块(block) * HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 * 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 * 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的转载 2013-04-17 00:37:22 · 3671 阅读 · 0 评论 -
Hadoop学习路线图
按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章: 用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html 用Hadoop进行分布式数据处理第2部分(进阶):http://www.ibm.com/developerworks/c原创 2013-04-14 23:18:53 · 46860 阅读 · 7 评论 -
Hive体系结构
本文整理自阿里数据平台的官方博客:http://www.alidata.org/archives/category/cloud-computing/hive 1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最转载 2013-04-29 14:37:11 · 24710 阅读 · 1 评论 -
Hive入门指南
本文整理自Hive官方Wiki的Getting Started部分:https://cwiki.apache.org/confluence/display/Hive/Home 1、安装与配置 Hive是建立在Hadoop上的数据仓库软件,用于查询和管理存放在分布式存储上的大规模数据集。它提供: (1)一系列的工具,可以方便地对数据进行提取/转化/加载(ETL)翻译 2013-04-25 15:59:08 · 11329 阅读 · 0 评论 -
HDFS架构
本文整理自:http://hadoop.apache.org/docs/stable/hdfs_design.html 1、引言 Hadoop分布式文件系统(HDFS)是一个分布式的文件系统,运行在廉价的硬件上。它与现有的分布式文件系统有很多相似之处。然而与其他的分布式文件系统的差异也是显着的。HDFS是高容错的,被设计成在低成本硬件上部署。HDFS为应用数据提供高吞吐量的访问翻译 2013-04-16 12:20:19 · 10701 阅读 · 1 评论