大数据
文章平均质量分 60
想写小说的程序员
这个作者很懒,什么都没留下…
展开
-
初识hadoop
哟吼~ ~ 美好的一天~从今天开始学习大数据的东西,虽然有一定的java基础,但是对新事物还是充满着恐惧感的,幸而身边有从事大数据工作的朋友,于是决定开始这漫漫长征。话不多说,还是开始学习吧~跟着学习视频,首先去官网下载hadoop2.x的压缩包,解压之后大致了解一下这个包内所包含的主要信息: - hadoop/bin 存放常用命令,如hadoop,hdfs等。 - Hadoop/da原创 2017-11-22 09:52:44 · 307 阅读 · 0 评论 -
使用本地hadoop运行伪分布式程序
这篇文章所使用的配置文件和思路基本都来自于官方的文档,在上一篇文章中已经配置完成了几个配置文件,包括hdfs,mapreduce以及yarn。全都配置在了一台服务器,所以运行的是伪分布式的程序。启动hdfs文件系统配置core-site.xml<configuration> <property> #配置hdfs文件系统的位置和端口,这里使用的是本地 #依据个人原创 2017-11-22 15:22:24 · 1412 阅读 · 0 评论 -
hadoop各模块含义及对应的配置
HDFS模块NameNode NameNode是主节点,存储文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode等。NameNode的元数据中的一部分存放在内存中的,在进程当中,另一部分存放在本地磁盘(fsimage:镜像文件和edits:编辑日志)在core-site.xml中配置<property> <name>fs.defaultFS</原创 2017-11-23 16:42:41 · 444 阅读 · 0 评论 -
hadoop的配置文件
要想正常使用hadoop系统,主要是配置core-site.xml,hdfs-site.xml以及mapred-site.xml这几个配置文件,如果使用yarn框架的话,还需要配置yarn-site.xml。值得一提的是,这几个配置文件都有对应的xxx-env.xml,这些环境的配置文件需要正确的配置jdk的环境。以下仅为我所使用,并且能在本地正常运行的配置:core-site.xml的配置<con原创 2017-11-22 10:50:04 · 412 阅读 · 0 评论 -
动手编写mapreduce---官方wordwount程序
在学习伪分布式hadoop集群的时候,使用了官方的wordcount程序,当时也只是直接执行官方jar包,不知道其工作原理,用过自己写一遍这个程序,加深对mapreduce工作原理的理解。MapReduce工作原理 input -> map -> shuffle -> reduce -> output基于MapReduce计算模型编写分布式并行程序非常简单,主要编码工作就是实现原创 2017-11-28 11:04:29 · 493 阅读 · 0 评论