![](https://img-blog.csdnimg.cn/20190927151043371.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
hadoop数据分析
登峰小蚁
编程,运动,顺便把钱赚了。
展开
-
0120-hive3.1.2配置mysql5.7.24
hive3.1.2配置mysql5.7.241. 修改配置文件2. 添加mysql包3. 初始化数据库4. 说明1. 修改配置文件cd confvi hive-site.xml输入以下内容,mysql的连接配置<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="te...原创 2020-03-15 14:12:18 · 2786 阅读 · 0 评论 -
0110-hive3.1.2配置derby启动
hive配置derby启动1. 下载解压2. 配置2.1 配置hive环境变量(非必需)2.2 hive配置Hadoop位置(非必需)2.3 hive配置文件位置配置(非必需)3. 初始化数据库4. 启动1. 下载解压下载2. 配置hive是将hql翻译成mapreducer程序的一个工具,hive依赖hdfs和yarn2.1 配置hive环境变量(非必需)export HIVE_HO...原创 2020-03-15 14:08:25 · 2881 阅读 · 6 评论 -
0100-Hadoop3.2.0 qjournal HA集群搭建
Hadoop HA搭建1. 原理说明2. 环境准备3. 集群规划3. zookeeper集群搭建4. hadoop集群搭建4.1 Hadoop下载4.2 解压4.3 配置文件4.3.1 配置环境变量4.3.2 hadoo-env.sh配置4.3.3 core-site.xml4.3.4 hdfs-site.xml4.3.5 mapred-site.xml4.3.6 yarn-site.xml4.3...原创 2020-03-14 19:09:57 · 2968 阅读 · 1 评论 -
0090-mapreduce自定义分组
文章目录1. 需求2. 实现步骤2.1 实体类2.2 Mapper程序2.3 自定义Partitioner2.4 Reducer程序2.5 执行job2.6 总结1. 需求mapper将结果发送到Reducer会进行数据分组,默认是分在同一组,有时候会根据不通的业务需求进行分组。注:默认的分组逻辑,(key.hashCode() & Integer.MAX_VALUE)表示用key的...原创 2020-03-14 17:49:09 · 2450 阅读 · 0 评论 -
0080-mapreduce自定义排序
文章目录1. 需求说明2. 实现步骤2.1 实体类2.2 Mapper类2.3 Reducer类2.4 Job提交类1. 需求说明倒叙排列总流量的大小。map类先将处理结果缓存到本地,此时会根据key进行排序,map结束后将结果送到reducer类处理。所以我们需要做的就是自定义key的比较方式。2. 实现步骤2.1 实体类要实现WritableComparable接口,自定义比较规则...原创 2020-03-14 17:42:01 · 2220 阅读 · 0 评论 -
0070-mapreduce自定义输出类
文章目录1. 需求背景2. 场景3. 具体实现3.1 自定义输出类3.2 Mapper类3.3 Reducer类3.4 job类-标准写法4. 总结1. 需求背景mapper-reducer程序只能输入键值对,如果需要输出多个字段信息,必须对键或值进行自定义封装。2. 场景// 手机号码 上行流量 下行流量 其他字段13576119010 11 22 aa1 bb11367611901...原创 2020-03-14 17:31:31 · 2408 阅读 · 0 评论 -
0060-mapreduce程序的三种提交方式
文章目录1. 第一种Hadoop jar2. 第二种Main方法直接运行,提交本地jvm3. 第三种Main方法直接提交到Yarn集群分发1. 第一种Hadoop jar这种方式将写好的mapper reducer程序打包提交到集群中运行,这种方式也是最终的运行方式,但是不方便调试代码逻辑。2. 第二种Main方法直接运行,提交本地jvm起作用的依赖<dependency>...原创 2020-03-14 17:21:31 · 2612 阅读 · 0 评论 -
0050-mapreduce入门-word count
文章目录1. 说明2. 添加依赖3. 编写代码3.1 Mapper程序3.2 Reducer程序3.3 job类4. 打包5. 执行1. 说明hello javahello jshello hadoophello htmlhello hdfshello mrhello hive用mapper-reduce程序统计上述数据中各单词出现的次数注:map程序首先切分单词,其次遍历...原创 2020-03-14 16:56:23 · 2279 阅读 · 0 评论 -
0040-hdfs客户端
文章目录1. 添加依赖2. 添加配置3. 编写客户端代码1. 添加依赖<dependencies> <!--hadoop--> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId...原创 2020-03-14 00:14:55 · 2007 阅读 · 0 评论 -
0030-hdfs shell操作
文章目录1. 实现原理2. shell操作1. 实现原理hdfs是通过分布式集群来存储文件;文件存储到hdfs集群中去的时候被切分成block,默认是128M;文件的block被放在不同的datanode节点上;hdfs文件系统中的文件与与真实的block之间有映射关系,由namenode管理;每个block在集群中存在多个副本(默认3个),可以提高数据的可靠性,也可以提高访问的吞吐...原创 2020-03-14 00:07:03 · 2329 阅读 · 0 评论 -
0020-伪分布式环境搭建
文章目录1. hadoop-env.sh2. core-site.xml3. hdfs-site.xml4. mapred-site.xml5. yarn-site.xml6. 关闭防火墙7. 配置hadoop环境变量8. 格式化文件系统9. 启动hdfs文件系统10. 从节点配置文件11. 启动yarn12. 验证启动1. hadoop-env.shhadoopd的环境变量,改JAVA_HO...原创 2020-03-13 23:46:21 · 2221 阅读 · 0 评论 -
0010-centos集群环境搭建
文章目录1. vware虚拟机安装2. 虚拟机安装centos2.1 配置固定ip2.2 hostname 修改2.3 拒绝xsheel连接2.4 配置hosts2.5 远程传输命令2.6 配置ssh连接2.7 端口开放2.8 关闭图形界面2.8 关闭防火墙1. vware虚拟机安装2. 虚拟机安装centos2.1 配置固定ip# 编辑下面的yaml文件vi /etc/sysconfi...原创 2020-03-13 23:43:51 · 2172 阅读 · 0 评论