Hadoop
文章平均质量分 75
Vics异地我就
这个作者很懒,什么都没留下…
展开
-
hadoop数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后,原创 2021-07-18 12:00:25 · 138 阅读 · 0 评论 -
整理的一点面试题
Hive优化属性优化 本地模式 JVM重用 推测执行 Fetch抓取 并行执行 压缩矢量化查询 零拷贝 关联优化 CBO优化器 小文件处理 索引优化 谓词下推推测执行机制是什么在作业执行的过程中数据倾斜发生的可能性是很大的,甚至有可能只有一个task执行到50%,但是其他task早早执行完毕了。这就需要推测执行,hadoop的推测执行机制会给这些有可能需要长时间才可以执行完的task准备一个备份,一旦task执行缓慢,那么备份task也会执行task的工作,看哪个先执行完就使原创 2021-06-22 09:02:03 · 110 阅读 · 0 评论 -
小记hive的几种存储引擎,以及hive的SQL优化器
hive的几种存储引擎,以及hive的SQL优化器?存储方面:textfile、orcfile、rcfile、parquet、sequencefile执行引擎:mr、tez、spark词法解析: calcite、cbo优化:mapjoin自定义函数:udfsql语法或自带函数原创 2021-06-15 13:59:16 · 285 阅读 · 1 评论 -
Hive 优化笔记
2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题。count(distinct ),在数据量大的情况下,效率较低,如果是多count(d...原创 2021-06-14 19:54:12 · 707 阅读 · 10 评论 -
数据仓库的概念以及建模方法
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习..原创 2021-06-08 20:59:10 · 520 阅读 · 4 评论 -
项目需求与技术架构
知识点03:大数据业务需求 目标:了解常见大数据平台的业务需求 实施 大数据业务需求本质:通过对公司所有数据的处理和分析,提取数据中的价值,为公司挣更多的钱 数据分析:对公司中的业务数据进行分析处理,根据业务需求实现运营支撑 赚钱的实现:买卖产品 需求:需要更多的客户 实现:推广拉新 打广告:100万 砍价:100万 评价:好与不好的指原创 2021-06-08 17:52:31 · 710 阅读 · 15 评论 -
hadoop离线day09--Apache Hive
hadoop离线day09--Apache Hive目录hadoop离线day09--Apache Hive今日内容大纲1、HQL DDL 数据定义语言分区表分区表创建分区表加载数据总结及注意事项多重分区表分桶表分桶表创建分桶表加载数据HQL DDL 数据定义语言修改表show场景语法2、HQL DML 数据操纵语言Dynamic partition inserts 动态分区插入导出数据操作3、HQL DQL 数据查询语言Com原创 2021-06-06 15:34:36 · 620 阅读 · 6 评论 -
hadoop离线day08--数据仓库、Apache Hive
hadoop离线day08--数据仓库、Apache Hive今日课程内容大纲#1、数据仓库基础知识 数仓是什么 数据分析的平台 面向分析 数仓由何而来 数仓核心特性 数仓和数据库区别 解决一个核心的误区:数仓绝不是大型数据库。 凉凉 OLTP T 事务 OLAP A 分析 数仓的分层架构 #2、当下大数据领域最著名的数仓软件 Apache Hive Hive是什么 数仓 基于原创 2021-06-05 17:45:25 · 1329 阅读 · 13 评论 -
MR案例实现小练习
MR案例实现题目:现有一张emp表,字段分别为员工编号,员工姓名,工作,管理编号,生日,工资,备注,部门编号数据:原创 2021-06-03 22:28:16 · 826 阅读 · 10 评论 -
hadoop离线day07--Hadoop YARN、HA机制
hadoop离线day07--Hadoop YARN、HA机制今日课程内容大纲#HDFS 安全模式 #Hadoop集群动态扩容与缩容 运维#Hadoop YARN 介绍:集群资源管理 任务调度 3大组件 架构 程序在yarn运行流程:以mr程序提交为例 yarn调度器 核心调度策略(算法) Fair调度:多租户资源隔离问题 运维#Hadoop HA集群 高可用概念 持续可用 一直可用 解决单点故障.原创 2021-06-01 21:05:44 · 1017 阅读 · 13 评论 -
hadoop离线day06--Hadoop MapReduce、HDFS高阶
hadoop离线day06--Hadoop MapReduce、HDFS高阶今日内容大纲#1.MapReduce 数据压缩 自定义分组 分组在reduce阶段 前后key比较 相同的在一组 一组去调用一次reduce方法 join问题 多个数据之间关联操作 map端join 分布式缓存 reduce端join CombineTextInputFormat 处理小文件的类 ...原创 2021-05-31 21:35:51 · 536 阅读 · 13 评论 -
hadoop离线day05--Hadoop MapReduce
hadoop离线day05--Hadoop MapReduce今日内容大纲#1、MR序列化机制 什么叫做序列化 使用场景 Java中序列化机制 Hadoop序列化机制 Writable 自定义对象类型能否在MR中使用传递。#2、自定义排序 默认字典序 a-z 正序 升序 如果需要倒序 如何实现? Comparable接口 CompareTo方法#3、自定义分区 默认分区规则 HashPartitione...原创 2021-05-28 21:49:37 · 132 阅读 · 3 评论 -
failed with state FAILED due to: NA&NullPointerException
项目场景:提示:这里简述项目相关背景:例如:项目场景:示例:通过蓝牙芯片(HC-05)与手机 APP 通信,每隔 5s 传输一批传感器数据(不是很大)问题描述:提示:这里描述项目中遇到的问题:例如:数据传输过程中数据不时出现丢失的情况,偶尔会丢失一部分数据APP 中接收数据代码:@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes,原创 2021-05-28 16:48:05 · 2884 阅读 · 0 评论 -
关于JAVA_HOME is incorrectly set 的问题
问题:当改变jdk位置时,IDEA中的项目关于JAVA的代码行都会报错,比如 import java.util.Map;这一行会灰掉,并且有下滑波浪线解决方案:点击 File -> Project Structure --> 点击SDKs,在右侧会显示JDK home path:,只需要修改成你移动后的jdk所在的目录即可,然后点击右下角的OK键。然后重启下IDEA(File --> Invalidte Caches/restart…)即可。————————————————版权声原创 2021-05-27 20:57:33 · 1599 阅读 · 2 评论 -
写MapReduce程序时遇到错误Error: INFO - Job job_local1832672383_0001 failed with state FAILED due to: NA
写MapReduce程序时遇到错误Error:INFO - Job job_local1832672383_0001 failed with state FAILED due to: NA查看发现有错误第一次遇到这个问题时候,我查了很久没有查出来~ 网上的资料也很少所以便记录一下这次的bug!!其实原理很简单,我自己类型弄错了哭死~~~找寻方法如下~~需要重新查看自己所输入的类型是否一致!!因此将IntWritable 改为LongWritable就可以了下图为我的Mapp.原创 2021-05-26 23:27:37 · 4559 阅读 · 4 评论 -
hadoop离线day04--Hadoop MapReduce
hadoop离线day04--Hadoop MapReduce今日内容大纲初始MapReduce MapReduce背后的思想 先分再合,分而治之 MapReduce设计构思 MapReduce编程规范 进程 MapReduce入门案例--Wordcount 统计单词次数 业务及其简单 背后技术流程学会 掌握MapReduce80% MapReduce程序执行 本地模式 yarn集群模式MapRed...原创 2021-05-26 20:49:02 · 1064 阅读 · 12 评论 -
hadoop离线day03--Hadoop HDFS
hadoop离线day03--Hadoop HDFS目录hadoop离线day03--Hadoop HDFS今日内容大纲Apache HDFS入门概念HDFS重要特性分块存储副本机制HDFS shell操作命令shell常见命令操作文件限额操作相关的命令HDFS工作机制读写流程图见画图。NameNode与DataNode通信机制HDFS Java API核心类HDFS辅助工具跨集群复制数据 distcp(distributed原创 2021-05-25 14:28:45 · 724 阅读 · 2 评论 -
hadoop离线day02--Apache Hadoop
hadoop离线day02--Apache Hadoop内容大纲#Apache Hadoop入门 介绍概念 狭义 广义 hadoop起源 hadoop特性优点#Apache Hadoop搭建 hadoop集群 主从架构 hdfs集群 yarn集群 集群角色 集群规划 集群配置 format初始化 启停脚本 webUI页面 hadoop初体验 现象与疑惑 后续学习方向#Apache hadoo...原创 2021-05-23 22:11:40 · 186 阅读 · 0 评论 -
hadoop离线day01--大数据导读、Apache Zookeeper
hadoop离线day01--大数据导读、Apache Zookeeper大数据导论 数据如何来的 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。#通过对客观事件进行计量和记录就会产生数据 数据量化 数据分析 所谓的数据就是通过工具或者方法把隐藏在数据背后的规律和价值提取处理的过程。 数据分析的作用(在商业中) 数据分析的结果给企业的决策提供支撑 支持决策。数据仓库的出现也是集成的数据分析平台原创 2021-05-23 21:24:07 · 944 阅读 · 8 评论