![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据Hadoop
记录学习大数据Hadoop过程
姜丝加姜丝
不忘初心,脚踏实地。
展开
-
WordCount案例--mapreduce编写(mr类型、map方法、reduce方法、Job方法) 详细注解
按我们上传一个文件,统计该文件里面的所有单词个数为例进行讲解一、编程规范:二、Mapper阶段业务逻辑实现MyMapper类继承的Mapper方法的四个参数的类型解析:1、KEYIN:表示数据输入的时候key数据类型,在默认的读取数据组件下,叫InputFormat,它的行为是一行一行读取待处理的数据,读取一行,返回一行给我们的mr程序,在这种情况下,keyin就表示一行的起始偏移量 因始数据的类型是long2、VALUEIN:表述数据输入的时候value的数据类型,在默认的读取数据组件下 v原创 2020-05-17 18:06:00 · 536 阅读 · 0 评论 -
MapReduce 并行编程
一、实验目的及要求1、掌握MapReduce并行编程方法2、掌握自定义数据类型3、掌握自定义分区类和自定义排序类的使用4、掌握最值求解并行化方法二、实验原理与内容假设有一个服务器每天都记录同一个网站的访问量数据,主要是该网站下所有页面中的最大访问量和最小访问量,数据存储在下面三个文件中。数据格式如下(记录时不具体到天):说明:第一列为某年某月的时间信息,第二列为该月内某天观测到的最大访问量,第三列为该月内同一天观测到的最小访问量。程序设计要求如下:最后输出网站每个月内的最大值、最小值原创 2020-05-16 19:17:29 · 692 阅读 · 0 评论 -
HDFS的JAVA API 操作
HDFS的JAVA API 操作1.1 构建开发环境:配置相应的java包(这里用的是IntelliJ IDEA)1.2 构造客户端对象在Java中操作HDFS,主要涉及以下Class:Configuration: 该类的对象封装了客户端或者服务器的配置;FileSystem: 该类的对象是一个文件系统对象,可以用该对象的一些方法来对•文件进行操作,通过FileSystem的静态方法get获取该对象。 FileSystem fs = FileSystem.get(conf)原创 2020-05-10 20:35:40 · 396 阅读 · 0 评论 -
大数据核心技术之MapReduce基础编程(实验)
内容:假设一个年级有两个班级,数据分别在class1.csv和class2.csv中,求该年级的数学成绩平均值。数据第一列为学号,第二列为数学成绩。 要求,必须使用Combiner类,且最后输出一行数据,该行仅有一个平均值。代码实现:1、Mapper在这里插入代码片...原创 2020-05-07 18:06:47 · 1572 阅读 · 0 评论 -
HDFS入门
记录上课 关于 HDFS 相关知识点原创 2020-05-02 20:26:59 · 113 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...
运行文件上传时出现的问题:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform…原因主要是 hadoop native 下面的 hadoop 静态库 的问题:libhadoop.so.1.0.0解决方法:1、首先看下自己操作系统的版本执行指令:uname -r查看切换到...原创 2020-05-02 20:07:12 · 1627 阅读 · 0 评论 -
eclipse 远程连接Linux 配置hadoopCall From master/ip to master:9000 failed on connection exception:
记一次配置hadoop踩到的坑:Call from DESKTOP-94IVJ49/192.168.8.1 to localhost:9000 failed on connection exception :java.net.ConnerctException:Connection refused:no further information;formore details see:原创 2020-05-01 17:59:41 · 1694 阅读 · 0 评论 -
MapReduce计算模型介绍
MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。原创 2020-05-01 15:04:57 · 3282 阅读 · 0 评论 -
Hadoop开发插件安装 eclipse 及安装过程遇到的问题总结
1、下载编译好得插件 hadoop-eclipse-plugin-2.7.7.jar(根据你得自己hadoop版本选择相应插件版本)hadoop-eclipse-plugin-2.7.7.jar插件分享:链接:https://pan.baidu.com/s/1h8MC9Ri2cXoMB2EMexrcEA提取码:wb122、把插件复制到你eclipse文件下的plugins文件夹下复制好...原创 2020-04-24 20:55:10 · 1120 阅读 · 1 评论 -
Linux系统安装eclipse、eclipse快捷方式生成办法
Linux环境安装及JDK的配置 在我的 Hadoop伪分布集群部署那篇博文有详细介绍,还没配好JDK的可以去看看。一、配置eclipse环境 1.下载eclipse 可以直接在Eclipse的官网中下载https://www.eclipse.org/downloads/packages/release/Luna/SR2 下载下面圈圈的那个不过下载的话比较慢,也可以直接拿我下载好...原创 2020-04-23 18:37:21 · 514 阅读 · 0 评论 -
Hadoop伪分布安装
Hadoop伪分布集群部署本手册安装环境如下:Linux:Centos6.8JDK:jdk-8u191-linux-x64.tar.gzHadoop:hadoop-2.7.7.tar.gz这三个环境我已经上次资源,大家可以去下载(名字:Hadoop伪分布集群部署配置环境)配置过程中要注意分清:root用户 与 普通用户fuhadoop各类安装包已提前放在/home/fuhadoo...原创 2020-04-19 18:07:56 · 509 阅读 · 0 评论 -
Hadoop集群搭建 详细介绍
Hadoop集群搭建1.发行版本Hadoop发行版本分为开源区版和商业版,社区版是指由Apache 软件基金会维护的版本,是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,比较著名的有cloudera的CDH、mapR等。我们学习的是社区版:Apache Hadoop。后续如未说明都是指Apac...原创 2020-03-22 18:11:16 · 608 阅读 · 0 评论 -
Apache Hadoop简介
Hadoop介绍Hadoop是Apache 旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上说,Hadop指Apache这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储YARN(作业调度和集群资源管理的框架):解决资源任务调度MMPREDUCE(分布式...原创 2020-03-21 19:25:00 · 2195 阅读 · 0 评论