Hadoop实操
文章平均质量分 71
@李思成
愿我们的青春如花般绽放。
个人邮箱li_sicheng@126.com
展开
-
基于Hive的电商数仓分层体系概述
1.为什么进行数仓分层把复杂问题简单化 将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题。减少重复开发 规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性。隔离原始数据 不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开。2.数仓分层总统架构ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。DWD层:对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退原创 2021-08-27 18:14:38 · 613 阅读 · 0 评论 -
Hive2.3.6集成Tez0.9.1
1.Hive安装前期准备:Hadoop集群搭建完毕,MySQL准备完毕。Hive安装包下载:http://archive.apache.org/dist/hive/hive-2.3.6/上传apache-hive-2.3.6-bin.tar.gz 到/opt/software目录下,并解压到/opt/module[lili@hadoop102 software]$ tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /opt/module/修改apache原创 2021-08-06 18:01:09 · 212 阅读 · 0 评论 -
Hive启动报错 java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang
lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientMetaException(message:Could not connect to meta store using any of the U原创 2021-08-05 22:08:19 · 3350 阅读 · 0 评论 -
大数据实践中Mysql与Sqoop的安装与连接(含安装包分享)
目录1.Mysql安装1.1安装包准备1.2安装Mysql服务器1.3安装Mysql客户端1.4Mysql中user表配置2.Sqoop安装2.1下载并解压2.2修改配置文件2.3添加JDBC驱动2.4验证Sqoop3.测试Sqoop连接Mysql1.Mysql安装1.1安装包准备上传Mysql相关安装包#1.首先在/opt/software/目录下创建mysql文件[lili@hadoop102 software]$ mkdir mysql#2.上传安装包到/opt/software/m原创 2021-08-04 20:37:07 · 2849 阅读 · 0 评论 -
使用Flume消费Kafka数据并落盘到HDFS
1.大体流程2.具体配置3.配置流程1.配置Flume Agent在hadoop104的/opt/module/flume/conf目录下创建kafka-flume-hdfs.conf文件[lili@hadoop104 conf]$ vim kafka-flume-hdfs.conf文件配置内容如下:#定义组件#由于要分别从Kafka的两个分区中获得数据,因此我们定义两个source#r1获取topic_start的数据,r2获取topic_event的数据a1.sources=r原创 2021-08-03 16:38:31 · 2046 阅读 · 0 评论 -
Kafka对接采集日志Flum的集群搭建与部署
目录Kafka简介消息队列Kafka的应用场景消息队列的两种模型Kafka中的重要概念消费者组幂等性Kafka集群搭建kafka集群部署kafka启动脚本Kafka命令行操作1.查看Kafka Topic列表2.创建Kafka Topic3.删除Kafka Topic4.kafka消费信息5.查看kafka Topic详情6.kafka压力测试Kafka简介消息队列消息队列——用于存放消息的组件程序员可以将消息放入到队列中,也可以从消息队列中获取消息很多时候消息队列不是一个永久性的存储,是作为临原创 2021-08-01 20:39:55 · 307 阅读 · 0 评论 -
采集日志Flume的集群搭建与详细配置
目录1.概述2.运行机制3.Flum采集系统构建图3.1简单结构3.2复杂结构4.快速入门4.1安装部署4.2Flume具体配置4.3Flume的ETL和分类型拦截器4.3.1配置pom.xml文件4.3.2ETL拦截器4.3.3日志过滤工具类4.3.4日志分类拦截器4.3.5打包上传并启动5.FLume启动脚本6.脚本补充6.1Hadoop启动脚本6.2生成日志脚本6.3zookeeper启动脚本6.3集群命令脚本6.4统一集群时间脚本1.概述Flume是Cloudera提供的一个高可用的,高可靠的,原创 2021-07-30 16:24:57 · 1736 阅读 · 0 评论 -
MapReduce案例—分别通过Reduce端和Map端实现JOIN操作
案例:需求:我们需要对一个商品表和一个订单表进行操作,统计出商品表中每一个商品对应的订单数目。原始数据://商品表:commodity.txtp0001,小米5,1000,2000p0002,锤子T1,1000,3000p0003,华为,1000,5000p0004,红米K30,1999,2500//订单表:order.txt1001,20150710,p0001,21002,20150710,p0002,31003,20110501,p0004,51004,20200502,p0原创 2021-02-01 21:47:27 · 224 阅读 · 0 评论 -
MapReduce案例-上行流量倒序排序(递减排序)
需求:按照上行流量倒序排序(递减排序)分析:自定义FlowBean,以FlowBean为map输出的key,以手机号作为Map输出的value,因为MapReduce程序会对Map阶段输出的key进行排序。原始数据:从左到右分别为手机号 上行流量 下行流量 上行数据包 下行数据包13480253104 3 180 3 18013502468823 57 110349 102 733513560439658 33 5892 24 203413600217502 37 203704 266原创 2021-01-30 19:18:15 · 395 阅读 · 0 评论 -
MapReduce案例-关于流量统计的求和分区规约排序操作
MapReduce案例-关于流量统计的求和分区规约排序操作。每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce的一种优化手段之一。原创 2021-01-30 18:32:38 · 584 阅读 · 2 评论