![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 75
xiaohang20103
这个作者很懒,什么都没留下…
展开
-
hadoop权威指南mapreduce的一个程序
横向扩展 前面介绍了MapReduce针对少量输入数据是如何工作的,现在我们开始鸟瞰整个系统以及有大量输入数据时数据是如何处理的。为了简单起见,到目前为止,我们的例子都只是用了本地文件系统中的文件。然而,为了实现横向扩展(scaling out),我们需要把数据存储在分布式文件系统中,一般为HDFS (详见第3章),由此允许Hadoop将MapReduce 计算移到存储有部分数据的各台机转载 2013-08-05 22:12:52 · 887 阅读 · 0 评论 -
apt-get 命令详解(中文),以及实例
一,什么的是apt-get高级包装工具(英语:Advanced Packaging Tools,简称:APT)是Debian及其衍生发行版(如:ubuntu)的软件包管理器。APT可以自动下载,配置,安装二进制或者源代码格式的软件包,因此简化了 Unix系统上管理软件的过程,apt-get命令一般需要root权限执行,所以一般跟着sudo命令。它根yum ,pacman,installpkg等转载 2013-08-06 20:20:00 · 3210 阅读 · 0 评论 -
grep的使用方法
grep 命令grep (globalsearch regular expression(RE) and print out theline,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具grep的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则必须被引用,模板后的所有字符串被看作文件名。搜索的结果被送到屏幕,不影响原文件内容。转载 2013-08-06 20:04:13 · 764 阅读 · 0 评论 -
HIVE和HBASE区别
Hive是為簡化編寫MapReduce程序而生的,使用MapReduce做過數據分析的人都知道,很多分析程序除業務邏輯不同外,程序流程基本一樣。在這種情況下,就需要Hive這樣的用戶編程接口。Hive本身不存儲和計算數據,它完全依賴於HDFS和MapReduce,Hive中的表純邏輯表,就是些表的定義等,也就是表的元數據。使用SQL實現Hive是因為SQL大家都熟悉,轉換成本低,類似作用的Pig就转载 2013-08-19 20:28:36 · 748 阅读 · 0 评论 -
MapReduce的执行机制
Hadoop.MapReduce作业任务当我们只用几行代码就可以运行一个MapReduce作业时,我们是否知道其实里面隐藏着大量的执行细节.本文就是来揭示一个Hadoop运行作业的执行细节.运行MapReduce作业的过程将包含以下四个实体1. 客户端.提交hadoop作业2. 分布式文件系统(一般为HDFS),3. JobTracker.协调作业的运行4. Tas转载 2013-08-09 21:39:12 · 682 阅读 · 0 评论 -
Spark环境搭建-转自徽沪一郎
Apache Spark源码走读之2 -- Job的提交与运行欢迎转载,转载请注明出处,徽沪一郎。概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装scala安装sbt安装java启动spark-she转载 2015-04-07 21:56:59 · 758 阅读 · 0 评论 -
Spark学习第一天-转自徽沪一郎
Apache Spark源码走读之1 -- Spark论文阅读笔记欢迎转载,转载请注明出处,徽沪一郎。楔子源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Mat转载 2015-04-07 21:54:56 · 760 阅读 · 0 评论