Hadoop
文章平均质量分 94
Hadoop搭建
早睡早起啦
感谢关注,csdn已经不上线了,不会在更新了。 csdn都是个人在大二到大四期间学习的笔记,有些内容可能并不是正确的,请理解下,技术文章在掘金(持续更新) https://juejin.cn/user/4248168663101239,如果想咨询up的话技术/生活/未来规划,wx: hakusai22.
展开
-
Hadoop--Job作业原理分析
Job作业原理分析一. InputFormat 原理解析二 . FileInputFormat类中getSplits()三. TextInputFormat将数据封装成key和value四. 翻译插件的使用五 . Map源码原理分析六. Reduce源码分析七 . OutputFormat 源码分析八. Shuffle的分析1. Map端shuffle原理图2. Reduce端的shuffle原理图3. MapReduce整体运行原理图一. InputFormat 原理解析InputForm原创 2020-12-19 16:03:00 · 218 阅读 · 0 评论 -
Hadoop--MapReduce的高级特性
MapReduce的高级特性一. MapReduce中Map的数量二. MapReduce中Reduce的数量三. Reduce分配map中数据方式四. 自定义分区(Partitoner)五. 计数器(Counter)1. 在map中使用计数器2. 在reduce中使用计数器3. 查看结果六. Combiner 合并一. MapReduce中Map的数量MapReduce运行过程中Map的数量是由block所决定的一个块(block)对应一个map task二. MapReduce中Redu原创 2020-12-19 15:13:09 · 188 阅读 · 0 评论 -
Hadoop--Hadoop的HA搭建
Hadoop--Hadoop的HA搭建一 . Hadoop--Hadoop的HA搭建1. 集群规划2. 搭建zk集群1.安装zk安装包2.创建zk的数据文件夹3.在每个数据文件夹中准备集群唯一标识文件myid4.在每个数据文件夹中准备zk的配置文件zoo.cfg5.进入zk安装目录bin目录执行如下命令启动zk集群6.进入zk安装目录bin目录执行如下命令查看集群状态3. 搭建hadoop的高可用集群1.在hadoop21--hadoop27上安装hadoop安装包2.在hadoop21--hadoop2原创 2020-12-19 12:04:29 · 229 阅读 · 0 评论 -
Hadoop--MapRedcuce的数据清洗
这里写目录标题一. 数据清洗1. Job工作代码2. 修改Main Class名称3. 使用wagon上传jar完成后远程执行job作业4. 运行成功样图5. 查看清洗后的数据一. 数据清洗所谓数据清洗指的是在复杂的数据格式中获取我们需要的数据过程称之为数据清洗,整个过程仅仅是将复杂数据中我们需要的数据清洗出来,不涉及任何的统计计算工作继续在流量统计的案列上进行数据清洗功能测试1. Job工作代码我们没有设置reduce阶段package com.xizi.phonedata;i原创 2020-12-15 22:06:28 · 280 阅读 · 0 评论 -
Hadoop--MapReduce自动化运行配置(Maven Helper)
这里写目录标题一. Hadoop--MapReduce自动化运行配置1. idea下载Maven插件2. 指定main class 信息3. 使用wagon插件实现自动上传至hadoop集群4. 使用wagon上传jar完成后远程执行job作业一. Hadoop–MapReduce自动化运行配置1. idea下载Maven插件插件名: Maven Helper2. 指定main class 信息2. 传统hadoop集群并执行hadoop_hdfs.jar包[root@hadoop15 ~]原创 2020-12-15 21:52:32 · 235 阅读 · 0 评论 -
Hadoop学习目录--2020~2021年
Hadoop学习目录Hadoop–Hadoop安装(单机)Hadoop–HDFS的基本操作Hadoop–Java操作HDFSHadoop–HDFS完全分布式(简单版)Hadoop–zookeeper搭建HDFS集群Hadoop–yarn集群搭建Hadoop–MapReduce流量计算Hadoop–Mapreduce自定义Writable...原创 2020-12-15 18:49:51 · 272 阅读 · 0 评论 -
Hadoop--Mapreduce自定义Writable
这里写自定义目录标题一.实现WritableComparable接口一.实现WritableComparable接口源码分析原创 2020-12-13 22:49:34 · 702 阅读 · 0 评论 -
Hadoop--zookeeper搭建HDFS集群
这里写自定义目录标题一. 原理分析二. 搭建HDFS高可用集群1. 环境准备2. 安装zookeeper3. zookeeper 安装包下载4.准备3个zk下创建数据存放目录5.在每个数据文件夹中准备一个myid文件6. 编辑每个data目录中myid7. 将zk配置文件zoo.cfg创建在zkdata目录中8.启动zk节点8. 查看zk角色信息9. 其他三台Hadoop机器10.配置hadoop的core-site.xml 三个机器一致11.配置hdfs-site.xml12. 修改slaves文件指定原创 2020-12-04 23:10:28 · 289 阅读 · 0 评论 -
Hadoop--Java操作HDFS
Hadoop–Java操作HDFS文章目录一. 导入依赖1. 获取hdfs客户端2. 上传文件到hdfs3. hdfs下载文件4. 展示hdfs目录和文件5. 展示hdfs文件列表6. hdfs创建目录7. 删除文件8. HDFS配置文件的优先级详解一. 导入依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <hadoop.原创 2020-12-03 20:47:54 · 210 阅读 · 0 评论 -
Hadoop--HDFS的基本操作
Hadoop–HDFS的基本操作文章目录一. 查看全部命令二.常见命令1. 查看目录结构2. 上传文件到HDFS3.创建文件夹4. 查看文件内容5.删除文件6.删除空目录7.追加文件内容8.查看文件的校验核9.查看文件的权限10.从本地copy到hdfs中11.hdfs中复制文件12.从hdfs上下载文件到本地13.查找某个路径下文件14.将hdfs文件移动到hdfs另一个位置一. 查看全部命令hdfs dfs[root@hadoop1 logs]# hdfs dfsUsage: hadoop原创 2020-12-03 20:16:03 · 326 阅读 · 0 评论 -
Hadoop--Hadoop安装(单机)
Hadoop–Hadoop安装(单机)文章目录一. Hadoop的核心之HDFS二. Hadoop的安装1. 基础配置准备2. 配置java环境变量3.安装hadoop4.配置core-site.xml5. 配置hdfs-site.xml一. Hadoop的核心之HDFSHDFS (Hadoop Distribute File System): Hadoop 的分布式文件存储系统,他核心解决的大数据的存储问题NameNode: 是整个HDFS集群的总入口,存储着HDFS的集群的文件元数据(如:原创 2020-12-03 19:32:11 · 317 阅读 · 0 评论 -
Hadoop--HDFS完全分布式(简单版)
Hadoop–HDFS完全分布式(简单版)文章目录一. 集群选型二. 集群搭建1. 创建三台虚拟机2. 修改主机名3. 配置主机名与ip映射4. 配置ssh免密登录5.安装jdk配置环境变量6.安装hadoop 并配置环境变量7.配置三个机器 hadoop-env.sh中环境变量设置8.配置三台机器的core-site.xml文件配置三台机器hdfs-site.xml配置文件10.配置三个机器slaves文件11. 在hadoop2节点上进行Namenode格式化12. 启动hdfs集群13. 查看各个原创 2020-12-02 22:33:52 · 299 阅读 · 0 评论 -
Hadoop--yarn集群搭建
Hadoop–yarn集群搭建文章目录1. 配置mapred-site.xml2. 配置yarn-site.xml3. 启动yarn集群4. mapreduce的web监控页面1. 配置mapred-site.xmlmapred-site.xml 这个文件是没有的 需要自己创建 将template文件复制重命名复制 cp hadoop-2.9.2/etc/hadoop/mapred-site.xml.template hadoop-2.9.2/etc/hadoop/mapred-site.xm原创 2020-12-02 21:04:33 · 737 阅读 · 0 评论 -
Hadoop--MapReduce流量计算
文章目录一. 使用的设备和搭建的环境二. 统计各个手机号的上传和下载流量总和1. 创建数据文件上传到HDFS文件系统中2. 编写mapreduce的job作业完成统计3. 打包jar上传到服务器4. 查看执行结果一. 使用的设备和搭建的环境三台centos7 虚拟机Xshell连接虚拟机IDEA_2018hdfs集群yarn集群Chrome, FireFox浏览器网易云start-dfs.sh 启动hdfs集群start-yarn.sh 启动yarn集群当前的环境配置二原创 2020-11-29 21:58:49 · 361 阅读 · 0 评论