Java基础
文章平均质量分 68
Vics异地我就
这个作者很懒,什么都没留下…
展开
-
小记hive的几种存储引擎,以及hive的SQL优化器
hive的几种存储引擎,以及hive的SQL优化器?存储方面:textfile、orcfile、rcfile、parquet、sequencefile执行引擎:mr、tez、spark词法解析: calcite、cbo优化:mapjoin自定义函数:udfsql语法或自带函数原创 2021-06-15 13:59:16 · 261 阅读 · 1 评论 -
Hive 优化笔记
2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题。count(distinct ),在数据量大的情况下,效率较低,如果是多count(d...原创 2021-06-14 19:54:12 · 300 阅读 · 10 评论 -
数据仓库的概念以及建模方法
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习..原创 2021-06-08 20:59:10 · 519 阅读 · 4 评论 -
项目需求与技术架构
知识点03:大数据业务需求 目标:了解常见大数据平台的业务需求 实施 大数据业务需求本质:通过对公司所有数据的处理和分析,提取数据中的价值,为公司挣更多的钱 数据分析:对公司中的业务数据进行分析处理,根据业务需求实现运营支撑 赚钱的实现:买卖产品 需求:需要更多的客户 实现:推广拉新 打广告:100万 砍价:100万 评价:好与不好的指原创 2021-06-08 17:52:31 · 409 阅读 · 15 评论 -
hadoop离线day09--Apache Hive
hadoop离线day09--Apache Hive目录hadoop离线day09--Apache Hive今日内容大纲1、HQL DDL 数据定义语言分区表分区表创建分区表加载数据总结及注意事项多重分区表分桶表分桶表创建分桶表加载数据HQL DDL 数据定义语言修改表show场景语法2、HQL DML 数据操纵语言Dynamic partition inserts 动态分区插入导出数据操作3、HQL DQL 数据查询语言Com原创 2021-06-06 15:34:36 · 612 阅读 · 6 评论 -
hadoop离线day08--数据仓库、Apache Hive
hadoop离线day08--数据仓库、Apache Hive今日课程内容大纲#1、数据仓库基础知识 数仓是什么 数据分析的平台 面向分析 数仓由何而来 数仓核心特性 数仓和数据库区别 解决一个核心的误区:数仓绝不是大型数据库。 凉凉 OLTP T 事务 OLAP A 分析 数仓的分层架构 #2、当下大数据领域最著名的数仓软件 Apache Hive Hive是什么 数仓 基于原创 2021-06-05 17:45:25 · 1292 阅读 · 13 评论 -
MR案例实现小练习
MR案例实现题目:现有一张emp表,字段分别为员工编号,员工姓名,工作,管理编号,生日,工资,备注,部门编号数据:原创 2021-06-03 22:28:16 · 799 阅读 · 10 评论 -
hadoop离线day07--Hadoop YARN、HA机制
hadoop离线day07--Hadoop YARN、HA机制今日课程内容大纲#HDFS 安全模式 #Hadoop集群动态扩容与缩容 运维#Hadoop YARN 介绍:集群资源管理 任务调度 3大组件 架构 程序在yarn运行流程:以mr程序提交为例 yarn调度器 核心调度策略(算法) Fair调度:多租户资源隔离问题 运维#Hadoop HA集群 高可用概念 持续可用 一直可用 解决单点故障.原创 2021-06-01 21:05:44 · 940 阅读 · 13 评论 -
hadoop离线day06--Hadoop MapReduce、HDFS高阶
hadoop离线day06--Hadoop MapReduce、HDFS高阶今日内容大纲#1.MapReduce 数据压缩 自定义分组 分组在reduce阶段 前后key比较 相同的在一组 一组去调用一次reduce方法 join问题 多个数据之间关联操作 map端join 分布式缓存 reduce端join CombineTextInputFormat 处理小文件的类 ...原创 2021-05-31 21:35:51 · 512 阅读 · 13 评论 -
hadoop离线day05--Hadoop MapReduce
hadoop离线day05--Hadoop MapReduce今日内容大纲#1、MR序列化机制 什么叫做序列化 使用场景 Java中序列化机制 Hadoop序列化机制 Writable 自定义对象类型能否在MR中使用传递。#2、自定义排序 默认字典序 a-z 正序 升序 如果需要倒序 如何实现? Comparable接口 CompareTo方法#3、自定义分区 默认分区规则 HashPartitione...原创 2021-05-28 21:49:37 · 115 阅读 · 3 评论 -
failed with state FAILED due to: NA&NullPointerException
项目场景:提示:这里简述项目相关背景:例如:项目场景:示例:通过蓝牙芯片(HC-05)与手机 APP 通信,每隔 5s 传输一批传感器数据(不是很大)问题描述:提示:这里描述项目中遇到的问题:例如:数据传输过程中数据不时出现丢失的情况,偶尔会丢失一部分数据APP 中接收数据代码:@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes,原创 2021-05-28 16:48:05 · 2836 阅读 · 0 评论 -
关于JAVA_HOME is incorrectly set 的问题
问题:当改变jdk位置时,IDEA中的项目关于JAVA的代码行都会报错,比如 import java.util.Map;这一行会灰掉,并且有下滑波浪线解决方案:点击 File -> Project Structure --> 点击SDKs,在右侧会显示JDK home path:,只需要修改成你移动后的jdk所在的目录即可,然后点击右下角的OK键。然后重启下IDEA(File --> Invalidte Caches/restart…)即可。————————————————版权声原创 2021-05-27 20:57:33 · 1561 阅读 · 2 评论 -
写MapReduce程序时遇到错误Error: INFO - Job job_local1832672383_0001 failed with state FAILED due to: NA
写MapReduce程序时遇到错误Error:INFO - Job job_local1832672383_0001 failed with state FAILED due to: NA查看发现有错误第一次遇到这个问题时候,我查了很久没有查出来~ 网上的资料也很少所以便记录一下这次的bug!!其实原理很简单,我自己类型弄错了哭死~~~找寻方法如下~~需要重新查看自己所输入的类型是否一致!!因此将IntWritable 改为LongWritable就可以了下图为我的Mapp.原创 2021-05-26 23:27:37 · 4457 阅读 · 4 评论 -
Java_集合初步讲解——Collection集合
集合1、概述集合是用来存储多个同类型数据的容器, 它的长度是可以变化的.2、集合的体系图记忆集合的顶层都是接口, 其中Collection接口是单列集合的顶层接口, Map接口是双列集合的顶层接口 Collection接口(单列集合)有两大子体系: List体系的特点是: 有序, 可重复 Set体系的特点是: 无序, 唯一 一个小技巧: 以后但凡我们学习一个新的体系时, 都建议采用学顶层, 用底层的方式来学习.: 因为顶层封装的是整个继承体系的共性内容, ...原创 2021-05-16 23:26:54 · 159 阅读 · 0 评论