![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据(Hadoop)
文章平均质量分 97
许你常欢
纸上得来终觉浅,绝知此事要躬行
展开
-
Hadoop之MapReduce应用实例2(分组排序,二次排序)
一、数据集及程序要求 数据集ramen-ratings.txt,包含全世界2580种方便面的品牌、国家/地区、包装类型、评分等内容,使用MapReduce计数并求平均值,输出:每个国家/地区最受欢迎的三大方便面品牌,按评分,去掉重复。所有国家方便面的平均分(即哪国的方便面最好吃)数据获取地址:https://github.com/ordinaryload/Hadoop-tools二、源代码编写2.1 打开IntelliJ IDEA创建Maven项目2.2 pom.xml 文件如下:<原创 2020-06-26 00:31:50 · 697 阅读 · 0 评论 -
Hadoop之MapReduce开发详解
一、JOB详解1.1 创建JOB通过Job类创建作业Configuration conf = new Configuration();Job job = Job.getInstance(conf, “JobName”);构建job的整个过程(run方法)都在linux中执行(不在YARN)Configuration类可加载Hadoop中的配置文件缺省加载core-default.xml和core-site.xml读取配置文件信息可实现HDFS Java API在Job中的执行可用于临原创 2020-06-26 00:17:13 · 733 阅读 · 0 评论 -
Hadoop之MapReduce应用实例1(求平均值)
一、数据集及程序要求 数据集ramen-ratings.txt,包含全世界2580种方便面的品牌、国家、包装类型、评分等内容,使用MapReduce计数并求平均值,输出:所有国家方便面的平均分(即哪国的方便面最好吃)数据获取地址:https://github.com/ordinaryload/Hadoop-tools二、源代码编写2.1 打开IntelliJ IDEA创建Maven项目2.2 pom.xml 文件如下: <dependencies> &l原创 2020-06-24 13:47:56 · 1905 阅读 · 1 评论 -
Hadoop之详解MapReduce架构
一、MapReduce概述1.1 MapReduce定义 MapRedrce是一个分布式运算程序的编程框架,是用户开发“基Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一-个Hadoop集群上。1.2 认识MapReduce MapReduce源于Google的一篇论文,将数据处理过程分为Map(映射)和Reduce(化简)两步特点:Hadoop MapReduce运行在YARN之上,原创 2020-06-23 23:02:00 · 1053 阅读 · 0 评论 -
Hadoop之详解YARN架构
一、YARN概述 统一资源管理和调度平台(Yet Another Resource Negotiator) :YARN脱胎于MRv1(MapReduce在Hadoop1.x中的实现),它由编程模型(新旧编程接口)、运行时环境(由JobTracker和TaskTracker组成)和数据处理引擎(MapTask和ReduceTask)三部分组成。MRv2是Hadoop2.X的MapReduce实现,运行时环境由YARN提供。MRv2的核心已经从单一的MapReduce计算框架转移为资源管理系统YARN,形成原创 2020-06-21 00:57:21 · 801 阅读 · 0 评论 -
Hadoop之HDFS的应用(Java API实现文件上传与下载)
HDFS客户端环境搭建就不在这里赘述了,不知道怎么搭建读者可参考这篇博客:https://blog.csdn.net/weixin_43800761/article/details/106854426一、HDFS文件上传源代码编写@Test public void testCopyFromLocalFile() { // 创建作业,配置作业所需参数 Configuration conf = new Configuration(); conf.原创 2020-06-19 15:26:56 · 3260 阅读 · 0 评论 -
IntelliJ IDEA搭建搭建HDFS客户端环境
一、配置windows下的Hadoop包下载Hadoop安装包(可将之前在linux下安装的压缩包直接解压用)下载链接:https://hadoop.apache.org/releases.html解压至非中文路径二、配置环境变量配置HADOOP_HOME环境变量;配置Path环境变量:三、使用Idea创建Maven工程创建好后,导入依赖: <dependencies> <!-- https://mvnrepository.co原创 2020-06-19 14:59:04 · 1277 阅读 · 0 评论 -
windows下缺少windutils.exe和hadoop.dll的解决方法
windows本地运行mr程序时(不提交到yarn,运行在jvm靠线程执行),hadoop.dll防止报nativeio异常、winutils.exe没有的话报空指针异常。1、到githup找到相应版本的文件,如本文使用的是3.1.2 下载winutils和hadoop.dll:https://github.com/ordinaryload/Hadoop-tools2、解压下载的文件,放到$HADOOP_HOME\bin下面3、拷贝hadoop.dll文件到C:\Windows\System32原创 2020-06-19 14:17:56 · 4124 阅读 · 2 评论 -
HDFS常见命令用法
HDFS命令用法基本格式:hadoop fs 命令 参数1 参数2HDFS路径参数,与Linux路径类似:根目录为 /常用命令(注意命令前有个横线)注: 参数<hdfs-dir-path>为HDFS目录路径参数<hdfs-file-path>为HDFS文件路径参数<hdfs-path>为HDFS路径参数<sys-dir-path>为系统文件路径参数<sys-file-path>为系统文件路径参数<sys-p原创 2020-06-19 01:19:36 · 585 阅读 · 0 评论 -
Hadoop之详解HDFS架构
在之前的博客里已经基本上介绍了Hadoop的基本架构,Hadoop包含三大基本组件:HDFS——分布式文件系统,用于数据存储YARN——统一资源管理和调度系统,用于管理集群的计算资源并根据计算框架的需求进行调度,支持包含MapReduce、Spark、Flink等多种计算框架。MRv2(Hadoop 2.x)之后的新特性。MapReduce——分布式计算框架,运行于YARN之上这篇博客主要是对Hadoop三大基本组件之一的HDFS进行深入的学习。一、HDFS概述1.1 HDFS产生背景原创 2020-06-19 01:07:11 · 1217 阅读 · 0 评论 -
Hadoop平台的安装(完全分布式Hadoop 3.1.2)
由于学校开了门大数据的课程,在做实验的时候踩了许多坑,所以将Hadoop安装过程以及踩坑和如何避免踩坑在这里和大家分享一下。这次Hadoop平台的搭建主要是搭建一个三台服务器的集群,采用完全分布式的方式。看本博客前需要将linux系统在虚拟机上搭建好。一、网络配置注:三台服务器都需要配置网络。(也可以采用克隆的方式,但要记得对其他两台机器的网络信息进行修改)还是建议大家每台都操作一遍,熟悉过程。Host-Only模式 虚拟机会与宿主机的虚拟网卡组成一个局域网,局域网中可使用单独的静态内部IP,原创 2021-06-24 09:32:13 · 1451 阅读 · 0 评论 -
Linux配置VMware虚拟机三种网络模式详解及配置
之前在学习linux的时候,为了速度,对于这三种网络模式很是模糊,直接采用桥接模式,也不用怎么配置,网络直接就能通了。由于最近在学习大数据,配置虚拟机网络是必不可少的,在配置的过程也是踩了许多坑,在使用虚拟机软件的时候,,vmware的网络连接问题应该也是大家遇到最多问题之一。写这篇博客也是因为不断的踩坑,然后在解决的过程中,对自己的理解也做一个总结。接下来,我们就一起来探讨一下关于vmware workstations网络连接的三种模式。vmware为我们提供了四种网络连接方式,它们分别是:Bri原创 2020-06-14 15:44:27 · 6299 阅读 · 3 评论 -
大数据处理技术之Hadoop——初识Hadoop
一、大数据的概论1.1 大数据概念 大数据(BigData) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决:海量数据的存储和海量数据的分析计算问题。PB,EB级别的数据存储单位。1.2 大数据的特点(5V)Volume(大量)数量巨大,通常在1PB(1024TB)以上,各行业标准不同。Velocity(高速)数据增长速度快,读写、处理速度快、时效性高。Va原创 2020-06-13 00:26:07 · 2109 阅读 · 0 评论