hadoop
文章平均质量分 70
Hadoop,hdfs,MapReduce
小洲C
这个作者很懒,什么都没留下…
展开
-
MapReduce原理深入理解
1、MapReduce概述及原理MapReduce是一种分布式计算模型MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。 MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。 这两个函数的形参和返回值都是&l.原创 2021-11-24 19:15:34 · 1808 阅读 · 1 评论 -
Java重写MapReduce
/** * 统计单词个数 */package com.shujia.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.原创 2021-11-20 22:29:09 · 841 阅读 · 0 评论 -
RPC网络编程(Java操作Hadoop)
Java代码操作HadoopJava在Windows中,Hadoop在Linux中在hadoop pom.xml文件中导入以下几个包<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.原创 2021-11-19 21:47:02 · 1190 阅读 · 0 评论 -
HDFS原理深入理解
1、hdfs 概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。容错。即使系统中有某些节点宕机,整体来说系统仍然可以持续运作而不会有数据损失【通过副本机制实现】。 分布式文件管理系原创 2021-11-24 16:05:06 · 711 阅读 · 0 评论 -
Hadoop
1、Apache基金会是专门为支持开源软件项目而办的一个非盈利性组织2、服务器(节点)服务器的内存,cpu及硬盘性能远高于pc机3、机架——负责放服务器的架子4、hadoop概述hadoop是一个适合海量数据分布式存储(消耗硬盘)和分布式计算(消耗cpu内存)的平台+资源分配Google Fs 文件管理系统 FileSystem—>hdfsMapReduce 分布式计算框架Big Table 大表5、had...原创 2021-11-18 16:10:53 · 603 阅读 · 0 评论 -
hdfs基本操作
hdfs分布式文件系统 , 将一个大的文件拆分成多个小文件存储在多台服务器中,文件系统: 目录结构(树状结构) "/" 树根, 目录结构在namenode中维护浏览器输入 master:50070进入到web提供的hdfs可视化界面 ——> Browse Directory如何在Linux命令行操作hdfs?1、创建目录 mkdirmkdir : 创建目录/data :路径 , 需要从 ”/“ 开始hadoop dfs -mkdir /data-p : 递...转载 2021-11-18 21:48:37 · 1280 阅读 · 0 评论