Hadoop
文章平均质量分 89
春文秋武
路延续着崎岖,静静地走着
展开
-
Hadoop系统组成
转载 2012-03-10 21:06:43 · 1019 阅读 · 0 评论 -
Hadoop分布式集群配置
上篇为体验hadoop采用了伪分布模式配置,本篇为继续深究hadoop来大体把握具体实用中的分布式模式。本文实用VMware建了3个虚拟机运行ubuntu。分别为 namenode whuqin1 192.168.64.143 datanode whuqin2 192.168.64.144 datanode whuqin3 192.168.64.145 1.SSH(Secure She原创 2011-08-24 21:24:22 · 2619 阅读 · 0 评论 -
HDFS的使用及编程
前面总体上认识了HDFS,本文介绍HDFS的使用,主要是对其Java API的介绍,参考hadoop的在线api。 1.web访问:http://localhost:50070,查看dfs、nodes。 2.命令行调用 格式:hadoop fs -command 具体命令原创 2011-08-05 14:51:00 · 10789 阅读 · 0 评论 -
Hadoop概要-MapReduce的认识
上文提到MapReduce、HDFS是Hadoop的主要内容。本文简略翻译了MapReduce:Simplified Data Processing on LargeClusters>,并对hadoop中org.apache.hadoop.mapreduce包的api分析,来概述MapReduce的思想。 1.翻译部分MapReduce 概念:MapReduce 是一个编程模型,处理和产生大数原创 2011-07-29 22:37:34 · 6956 阅读 · 3 评论 -
Hadoop概要-HDFS的认识
学习一个新技术,个人觉得先总体把握其架构思想,再进行实践,实践中体会反思,效果较好。现在继续上篇hadoop的安装和配置,来学习hadoop的架构和设计。先声明这是转过来的一篇比较老的博文,略加简化,便于复习。1. hadoophadoop是一分布式计算开源框架,最核心的是:Ma转载 2011-07-26 22:38:45 · 3274 阅读 · 0 评论 -
HDFS读写文件实例与解析
使用实例: 1.项目结构(引入包hadoop-0.20.2-core.jar和commons-logging.jar) 2.代码 HdfsCommon.java public class HdfsCommon { private Configuration co原创 2011-08-29 17:49:23 · 20665 阅读 · 2 评论 -
Apache Hadoop的安装与配置
Hadoop很火,不学不好意思。由于资料很多、书籍很多。本文简略介绍。1.安装ubuntu(或其他linux操作系统,或虚拟机上安装)2.安装jdk,并配置环境变量3.下载hadoop,解压。(http://hadoop.apache.org/,我下载了0.20.2)4.伪分布模原创 2011-07-21 17:17:43 · 4646 阅读 · 1 评论 -
Hadoop相关日常操作
1.Hive相关 脚本导数据,并设置运行队列 bin/beeline -u 'url' --outputformat=tsv -e "set mapreduce.job.queuename=queue_1" -e "select * from search_log where date = 20150523" > test.txt 2.Spark相关 spark任务提交 $SPA原创 2015-08-28 16:37:20 · 649 阅读 · 0 评论 -
Spark使用实例
1.介绍 Spark是基于Hadoop的大数据处理框架,相比较MapReduce,Spark对数据的处理是在本地内存中进行,中间数据不需要落地,因此速度有很大的提升。而MapReduce在map阶段和Reduce阶段后都需要文件落地,对于连续的数据处理,就需要写多个MapReduce Job接力执行。 最近分析用户查询日志提取共现查询,流程如下:a.先获得对;b.合并同一个uid的querie原创 2015-08-28 15:04:59 · 2529 阅读 · 0 评论