hadoop
xiyf2046
这个作者很懒,什么都没留下…
展开
-
太多选择——如何挑选合适的大数据或Hadoop平台?
今年,大数据在很多公司都成为相关话题。虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop已经成为事实上的标准。IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。你有多种选择来安装Hadoop的一个版本并实现大数据处理。本文讨论转载 2013-10-10 10:32:51 · 1223 阅读 · 0 评论 -
hadoop 没有启动data node报异常
在启动了name node但没有启动data node情况下,可以建立目录和文件,但是不能向文件中写入内容。原创 2013-12-04 15:35:46 · 1016 阅读 · 0 评论 -
深入剖析阿里巴巴云梯YARN集群
摘要:阿里巴巴是国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。本文将详细介绍阿里巴巴如何充分利用YARN的新特性来构建和完善其多功能分布式集群——云梯YARN集群。阿里巴巴作为国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群,即云梯集群,分为存储与计算两个模块,计算模块既有MRv1,也有YARN转载 2013-12-11 10:21:10 · 988 阅读 · 0 评论 -
SQL on Hadoop的最新进展及7项相关技术分享
大数据是现在非常热门的一个话题,从工程或者技术的角度来看,大数据的核心是如何存储、分析、挖掘海量的数据解决实际的问题。那么对于一个工程师或者分析师来说,如何查询和分析TB/PB级别的数据是在大数据时代不可回避的问题。SQL on Hadoop就成为了一个重要的工具。为什么非要把SQL放到Hadoop上? SQL易于使用;那为什么非得基于Hadoop呢?Hadoop架构具备很强的鲁棒性和可扩展性。本转载 2013-11-26 14:14:35 · 751 阅读 · 0 评论 -
hadoop比较好的监控工具有哪些?
Apache Ambari Zettaset Orchestrator StackIQ Rocks+ Big Data Platform MapReduce Apache Mesos 给你推荐这五个,第一个比较好用,你可以试试。转载 2013-10-18 09:22:02 · 1076 阅读 · 0 评论 -
mesos资料网址
http://dongxicheng.org/tag/mesos/转载 2013-10-18 09:23:00 · 618 阅读 · 0 评论 -
SQL on Hadoop的最新进展及7项相关技术分享
摘要:SQL on Hadoop对于大数据而言非常重要。本文从技术架构和最新进展的角度分析了7种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Stinger、Impala、Shark/Spark、Phoenix、 Hdapt/HadoopDB、Hawq/Greenplum。编者按:大数据最大的魅力在于通过技术分析和挖掘带来新的商业价值。SQL on Hadoop是转载 2013-10-18 09:43:09 · 1068 阅读 · 0 评论 -
MapReduce和数据科学家(续)
nPath这类函数生成的结果类似一个SQL子查询的结果,比如是一个关系表。因此它们可以用在SQL中的FROM子句中,用来跟其他表进行连接,并利用WHERE子句进行你个过滤,用GROUP BY子句进行分组等等。SQL-MapReduce查询可以通过第三方工具进行输入并展示结果,比如Tableau,它支持自定义SQL的建立。SQL-MapReduce函数是自描述的,也支持延迟绑定,这意味着可在不知转载 2013-10-16 14:00:25 · 728 阅读 · 0 评论 -
MapReduce和数据科学家
MapReduce and the Data Scientist翻译【说在前面的话】:这篇文章是由BI Research的Colin White所著,我觉得是对MapReduce的介绍比较好的文章,所以翻译出来帮助学习,如果有碍版权,当即使删除,仅供个人学习使用。【正文】大数据和分析大数据是一项重大的新闻。分析大数据的技术演进得非常快速,一些新的分析方法引起了众多的关注,例如Hadoo转载 2013-10-16 13:52:05 · 980 阅读 · 0 评论 -
读两篇关于如何选择Hadoop的报告笔记
Gartner:如何选择正确的Hadoop版本这份报告的全名是《How to Choose the Right Apache Hadoop Distribution》。主要介绍了企业如何引入Hadoop,其中一些内容很好,值得一看。在文中Gartner分析了Hadoop的由来,并且指出,目前开源项目的方式为使用Apache Hadoop带来了挑战,因为其中的内容都是很多厂家贡献出来的,成熟转载 2013-10-16 13:51:39 · 771 阅读 · 0 评论 -
hadoop任务调度器---azkaban网址
http://www.oschina.net/p/azkaban原创 2013-10-15 11:15:25 · 852 阅读 · 0 评论 -
oozie 扩展与配置相关
oozie 扩展与配置相关博客分类: oozie 折腾了好久好久好久的oozie, 现在暂时算是能够用起来了。 主要讲两点吧: 一,部署相关 二,运行相关 ----------------------------- 一,部署相关 oozie用的版本是oozie-3.1.3-incubating,不知道为什么,从3.0起,oozie转载 2013-10-15 11:38:57 · 830 阅读 · 0 评论 -
Apache Oozie官方文档翻译之一---首页
Apache Oozie 工作流调度器 for Hadoop概述Oozie是管理Hadoop作业(job)的工作流调度系统。Oozie工作流作业是活动的有向无环图。Oozie协调器作业是重复性的Oozie工作流作业,作业由时间(频率)和数据可用性触发。Oozie能结合hadoop技术栈中其它项目,支持多种类型的即用型hadoop作业(例如翻译 2013-10-11 09:34:46 · 2205 阅读 · 0 评论 -
Storm的“翻版”:LinkedIn开源实时数据处理系统Samza
发表于2013-09-22 15:35| 3435次阅读| 来源GigaOM| 5 条评论| 作者Derrick HarrisSamzaStormYARNLinkedInHadoop摘要:Samza,是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm,近日LinkedIn开源了这项技术。本文介绍了搭配使用Kafka和YARN的一些特点和转载 2013-10-10 15:23:26 · 808 阅读 · 0 评论 -
将OpenStack部署到Hadoop的四种方案
2013年07月08日09:21 来源:developerWorks 中国 作者:Steve Markey 编辑:王玉圆 我要评论(0)标签: Hadoop ,OpenStack , 大数据 【IT168 技术】随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹转载 2013-10-10 15:13:37 · 1089 阅读 · 0 评论 -
Hadoop中一个distcp
hadoop中有一个叫做distcp(分布式复制)的有用程序,能从hadoop的文件系统并行复制大量数据。distcp一般用于在两个HDFS集群中传输数据。如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 这将从第一个集群中复制/foo目录(和转载 2013-10-10 14:58:11 · 700 阅读 · 0 评论 -
Spark:大数据的“电光石火”
摘要:Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“转载 2013-12-13 16:30:28 · 1271 阅读 · 0 评论