![](https://img-blog.csdnimg.cn/59aba1456bcc4b309a8eb4c409df1455.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
bigdatav007——hadoop.v002
BigDataHadoop.v02
yanqi_vip
strove with none, for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor
展开
-
CC00000.hadoop——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-07 14:25:00 · 55 阅读 · 0 评论 -
CC00001.hadoop——|Hadoop&Hive.V01|——|Hive.v01|linux升级Python|python2.7.25~2.7.15|
一、centos7.x自带的Python版本为2.7.5### --- 查看Python版本[root@linux122 ~]# python --versionPython 2.7.5二、升级Python版本### --- 下载并升级Python~~~ # 下载最新版本的python包:[root@linux122 ~]# wge...原创 2022-04-07 14:25:00 · 208 阅读 · 0 评论 -
CC00002.hadoop——|Hadoop&Hive.V02|——|Hive.v02|sqoop创建job报错|缺省java-json.jar包|
附录一:报错处理一:~~~ [sqoop创建job缺省java-json.jar]——NoClassDefFoundError: org/json/JSONObject ~~~ [sqoop创建job的password文件格式错误]——java.sql.SQLException### --- 报错现象:sqoop执行job报错:...原创 2022-04-07 14:26:00 · 591 阅读 · 0 评论 -
CC00003.hadoop——|Hadoop&Hive.V03|——|Hive.v03|课程大纲|数据仓库工具Hive|产生背景|
一、Hive概述~~~ [课程内容介绍及数据仓库工具Hive的产生背景]~~~ [数仓工具Hive与RDBMS对比]~~~ [数仓工具Hive的优缺点]~~~ [数仓工具Hive的架构原理]### --- Hive概述~~~ HDFS => 海量数据的存储~~~ MapReduce => 海量数据的分析和处...原创 2022-04-07 14:27:00 · 74 阅读 · 0 评论 -
CC00004.hadoop——|Hadoop&Hive.V04|——|Hive.v04|Hive部署配置.v01|
一、Hive安装配置~~~ [安装mysql数据库]~~~ [Hive的安装与配置]~~~ [Hive安装的注意事项]~~~ [Hive参数配置和命令]### --- 环境准备~~~ Hive官网:http://hive.apache.org~~~ 下载网址:http://archive.apache.org/dist/...原创 2022-04-07 14:27:00 · 51 阅读 · 0 评论 -
CC00005.hadoop——|Hadoop&Hive.V05|——|Hive.v05|Hive部署配置.v02|
一、Hive安装### --- 安装步骤:~~~ 下载、上传、解压缩~~~ 修改环境变量~~~ 修改hive配置~~~ 拷贝JDBC的驱动程序~~~ 初始化元数据库### --- 下载Hive软件,并解压缩[root@linux123 software]# pwd/opt/yanqi/software[root@lin...原创 2022-04-07 14:28:00 · 64 阅读 · 0 评论 -
CC00006.hadoop——|Hadoop&Hive.V06|——|Hive.v06|Hive数据类型转换|
一、数据类型与文件格式~~~ [Hive数据类型之基本数据类型及转换]~~~ [Hive数据类型之集合数据类型]~~~ [Hive文本文件数据编码及读时模式]### --- 数据类型与文件格式~~~ Hive支持关系型数据库的绝大多数基本数据类型,同时也支持4种集合数据类型。### --- 基本数据类型及转换~~~ Hi...原创 2022-04-07 14:28:00 · 143 阅读 · 0 评论 -
CC00007.hadoop——|Hadoop&Hive.V07|——|Hive.v07|Hive_DDL数据库操作.v01|
一、HQL操作之 -- DDL命令~~~ [Hive_DDL数据库操作]~~~ [Hive_DDL之建表语法]~~~ [Hive_DDL之内部表和外部表]~~~ [Hive_DDL之分区表]~~~ [Hive_DDL之分桶表]~~~ [Hive_DDL之修改表及删除表]### --- HQL操作~~~ 参考:...原创 2022-04-07 14:29:00 · 59 阅读 · 0 评论 -
CC00008.hadoop——|Hadoop&Hive.V08|——|Hive.v08|Hive_DDL数据库操作.v02|
一、内部表 & 外部表### --- 在创建表的时候,可指定表的类型。~~~ 表有两种类型,分别是内部表(管理表)、外部表。~~~ 默认情况下,创建内部表。如果要创建外部表,需要使用关键字 external~~~ 在删除内部表时,表的定义(元数据) 和 数据 同时被删除~~~ 在删除外部表时,仅删除表的定义,数据被保留~~~ ...原创 2022-04-07 14:30:00 · 58 阅读 · 0 评论 -
CC00009.hadoop——|Hadoop&Hive.V09|——|Hive.v09|Hive_DDL数据库操作.v03|
一、分区表### --- 分区表~~~ Hive在执行查询时,一般会扫描整个表的数据。由于表的数据量大,全表扫描消耗时间长、效率低。~~~ 而有时候,查询只需要扫描表中的一部分数据即可,Hive引入了分区表的概念,~~~ 将表的数据存储在不同的子目录中,每一个子目录对应一个分区。~~~ 只查询部分分区数据时,可避免全表扫描,提高查询效率。~...原创 2022-04-07 14:31:00 · 44 阅读 · 0 评论 -
CC00010.hadoop——|Hadoop&Hive.V10|——|Hive.v10|Hive数据库操作|load命令|
一、 数据导入~~~ [Hive数据库操作之load命令] ~~~ [Hive数据库操作之Insert命令]~~~ [Hive数据库操作之数据导出]### --- 装载数据(Load):基本语法:LOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename [PART...原创 2022-04-07 14:31:00 · 290 阅读 · 0 评论 -
CC00011.hadoop——|Hadoop&Hive.V11|——|Hive.v11|Hive_DQL之查询.v01|
一、HQL操作之--DQL命令【重点】~~~ [Hive_DQL之简单查询]~~~ [Hive_DQL之where子句]~~~ [Hive_DQL之grouply子句]~~~ [Hive_DQL之表连接]~~~ [Hive_DQL之order by]~~~ [Hive_DQL之sort by]~~~ [Hive_DQ...原创 2022-04-07 14:31:00 · 100 阅读 · 0 评论 -
CC00012.hadoop——|Hadoop&Hive.V12|——|Hive.v12|Hive_DQL之查询.v02|
一、group by子句### --- group by子句~~~ GROUP BY语句通常与聚组函数一起使用,~~~ 按照一个或多个列对数据进行分组,对每个组进行聚合操作。~~~ # 计算emp表每个部门的平均工资hive (mydb)> select deptno, avg(sal)from empgroup by deptno;...原创 2022-04-07 14:32:00 · 84 阅读 · 0 评论 -
CC00013.hadoop——|Hadoop&Hive.V13|——|Hive.v13|Hive函数用法.v01|
一、系统内置函数~~~ [Hive函数之日期函数]~~~ [Hive函数字符串函数及数学函数]~~~ [Hive函数条件函数]~~~ [Hive函数explode用法]~~~ [Hive函数explode案例]~~~ [Hive函数之窗口函数]~~~ [Hive函数之windows子句]~~~ [Hive函...原创 2022-04-07 14:33:00 · 72 阅读 · 0 评论 -
CC00014.hadoop——|Hadoop&Hive.V14|——|Hive.v14|Hive函数用法.v02|
一、UDTF函数【重要】### --- UDTF函数【重要】~~~ # UDTF : ~~~ User Defined Table-Generating Functions。~~~ 用户定义表生成函数,一行输入,多行输出。### --- explode,炸裂函数~~~ 就是将一行中复杂的 array 或者 map 结构拆分成多行hi...原创 2022-04-07 14:34:00 · 114 阅读 · 0 评论 -
CC00015.hadoop——|Hadoop&Hive.V15|——|Hive.v15|Hive函数用法.v03|
一、窗口函数【重要】### --- 窗口函数~~~ 窗口函数又名开窗函数,属于分析函数的一种。~~~ 用于解决复杂报表统计需求的功能强大的函数,很多场景都需要用到。~~~ 窗口函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:~~~ 对于每个组返回多行,而聚合函数对于每个组只返回一行。~~~ 窗口函数指定了分析函数工作的数据...原创 2022-04-07 14:34:00 · 70 阅读 · 0 评论 -
CC00016.hadoop——|Hadoop&Hive.V16|——|Hive.v16|Hive函数用法.v04|
一、SQL面试题### --- 连续7天登录的用户~~~ # 数据。uid dt status(1 正常登录,0 异常)[root@linux123 ~]# vim /home/hadoop/data/ulogin.dat1 2019-07-11 11 2019-07-12 11 2019-07-13 11 2019-07-14 11 ...原创 2022-04-07 14:35:00 · 72 阅读 · 0 评论 -
CC00017.hadoop——|Hadoop&Hive.V17|——|Hive.v17|Hive函数用法.v05|
一、自定义函数### --- 自定义函数~~~ 当 Hive 提供的内置函数无法满足实际的业务处理需要时,可以考虑使用用户自定义函数进行扩展。~~~ 用户自定义函数分为以下三类:~~~ UDF(User Defined Function)。用户自定义函数,一进一出~~~ UDAF(User Defined Aggregation Functi...原创 2022-04-07 14:35:00 · 57 阅读 · 0 评论 -
CC00018.hadoop——|Hadoop&Hive.V18|——|Hive.v18|Hive事务|
一、HQL操作之--DML命令### --- HQL操作之--DML命令~~~ 数据操纵语言DML(Data Manipulation Language),~~~ # DML主要有三种形式:~~~ 插入(INSERT)、删除(DELETE)、更新(UPDATE)。~~~ 事务(transaction)是一组单元化操作,这些操作要么都执行,...原创 2022-04-07 14:36:00 · 71 阅读 · 0 评论 -
CC00019.hadoop——|Hadoop&Hive.V19|——|Hive.v19|Hive元数据之metastore三种方式.v01|
一、元数据管理与存储~~~ [Hive元数据之metastore三种方式]~~~ [Hive元数据之内嵌模式配置]~~~ [Hive元数据之HiveServer2]~~~ [Hive元数据之HCatalog]### --- Metastore~~~ 在Hive的具体使用中,首先面临的问题便是如何定义表结构信息,跟结构化的数据映射...原创 2022-04-07 14:37:00 · 114 阅读 · 0 评论 -
CC00020.hadoop——|Hadoop&Hive.V20|——|Hive.v20|Hive元数据之metastore三种方式.v02|
一、metastore内嵌模式配置### --- metastore内嵌模式配置流程~~~ 下载软件解压缩~~~ 设置环境变量,并使之生效~~~ 初始化数据库:schematool -dbType derby -initSchema~~~ 进入hive命令行~~~ 再打开一个hive命令行,发现无法进入二、在linux1...原创 2022-04-07 14:37:00 · 140 阅读 · 0 评论 -
CC00021.hadoop——|Hadoop&Hive.V21|——|Hive.v21|Hive元数据之metastore三种方式.v03|
一、HiveServer2### --- HiveServer2~~~ HiveServer2是一个服务端接口,使远程客户端可以执行对Hive的查询并返回结果。~~~ 目前基于Thrift RPC的实现是HiveServer的改进版本,并支持多客户端并发和身份验证,~~~ 启动hiveServer2服务后,就可以使用jdbc、odbc、thrift 的...原创 2022-04-07 14:37:00 · 102 阅读 · 0 评论 -
CC00022.hadoop——|Hadoop&Hive.V22|——|Hive.v22|Hive元数据之metastore三种方式.v04|
一、HCatalog### --- HCatalog~~~ # HCatalog 提供了一个统一的元数据服务,~~~ 允许不同的工具如 Pig、MapReduce 等通过 HCatalog 直接访问存储在 HDFS 上的底层文件。~~~ HCatalog是用来访问Metastore的Hive子项目,它的存在给了整个Hadoop生态环境一个统一的定义。...原创 2022-04-07 14:38:00 · 108 阅读 · 0 评论 -
CC00023.hadoop——|Hadoop&Hive.V23|——|Hive.v23|Hive存储机制之行列存储及TextFile.v01|
一、数据存储格式~~~ [Hive存储机制之行列存储及TextFile]~~~ [Hive存储机制ORC]~~~ [Hive存储机制之Parquet]~~~ [Hive元数据之文件格式对比]### --- 数据存储格式~~~ Hive支持的存储数的格式主要有:TEXTFILE(默认格式) ~~~ SEQUENCEFIL...原创 2022-04-07 14:39:00 · 74 阅读 · 0 评论 -
CC00024.hadoop——|Hadoop&Hive.V24|——|Hive.v24|Hive存储机制之行列存储及TextFile.v02|
一、文件存储格式对比测试### --- 说明:~~~ 给 linux123 分配合适的资源。2core;2048G内存~~~ 适当减小文件的数据量(现有数据约800W,根据自己的实际选择处理100-300W条数据均可)~~~ # 压缩的资源位置[root@linux123 ~]# hdfs dfs -ls /user/hive/warehouse...原创 2022-04-07 14:40:00 · 71 阅读 · 0 评论 -
CC00025.hadoop——|Hadoop&Hive.V25|——|Hive.v25|Hive优化策略|实战.v01|
一、Hive调优策略~~~ [Hive优化策略之架构优化]~~~ [Hive优化策略之本地模式,严格模式JVM重用]~~~ [Hive优化策略之并行执行/推测执行/合并小文件及fetch模式]~~~ [Hive优化策略之列分区裁剪/sortBy及groupBy]~~~ [Hive优化策略之join的三重方式]~~~ [Hive...原创 2022-04-07 14:40:00 · 134 阅读 · 0 评论 -
CC00026.hadoop——|Hadoop&Hive.V26|——|Hive.v26|Hive优化策略|实战.v02|
一、参数优化### --- 本地模式~~~ 当Hive处理的数据量较小时,启动分布式去处理数据会有点浪费,~~~ 因为可能启动的时间比数据处理的时间还要长。~~~ Hive支持将作业动态地转为本地模式,需要使用下面的配置: SET hive.exec.mode.local.auto=true; ...原创 2022-04-07 14:41:00 · 46 阅读 · 0 评论 -
CC00027.hadoop——|Hadoop&Hive.V27|——|Hive.v27|Hive优化策略|实战.v03|
一、SQL优化### --- SQL优化~~~ 列裁剪和分区裁剪~~~ 列裁剪是在查询时只读取需要的列;分区裁剪就是只读取需要的分区。~~~ 简单的说:select 中不要有多余的列,坚决避免 select * from tab;### --- 查询分区表,不读多余的数据;select uid, event_type, record_data...原创 2022-04-07 14:42:00 · 69 阅读 · 0 评论 -
CC00028.hadoop——|Hadoop&Hive.V28|——|Hive.v28|Hive优化策略|实战.v04|
一、优化实战### --- 数据说明~~~ 学生信息表(student_txt)定义如下:~~~ # 创建数据库hive (default)> create database tuning;hive (default)> use tuning;~~~ # 创建表hive (tuning)> create table i...原创 2022-04-07 14:42:00 · 106 阅读 · 0 评论 -
CC00029.hadoop——|Hadoop&Hive.V29|——|Hive.v29|Hive优化策略|实战.v05|
一、问题解答:问题1:### --- 问题1:SQL执行过程中有多少个job(Stage)~~~ 借助SQL的执行计划可以解答这个问题hive (tuning)> explaininsert overwrite table student_stat partition(tp)select s_age, max(s_birth) stat, 'max' tpf...原创 2022-04-07 14:42:00 · 77 阅读 · 0 评论 -
CC00030.hadoop——|Hadoop&Hive.V30|——|Hive.v30|Hive案例综合案例.v01|
一、需求描述:针对销售数据,完成统计:### --- 需求描述:针对销售数据,完成统计:~~~ 按年统计销售额~~~ 销售金额在 10W 以上的订单~~~ 每年销售额的差值~~~ 年度订单金额前10位(年度、订单号、订单金额、排名)~~~ 季度订单金额前10位(年度、季度、订单id、订单金额、排名)~~~ 求所有交易日中订...原创 2022-04-07 14:43:00 · 139 阅读 · 0 评论 -
CC00031.hadoop——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-07 14:44:00 · 54 阅读 · 0 评论 -
CC00032.hadoop——|Hadoop&Hue.V01|——|Hue.v01|编译配置.v01|
一、Hue概述### --- [数据交互工具-HUE]~~~ [交互工具Hue_编译安装]~~~ [交互工具Hue配置]~~~ [交互工具Hue之整合Hadoop及Hive]### --- Hue概述~~~ Hue(Hadoop User Experience)是一个开源的 Apache Hadoop UI 系统,~~~ 最...原创 2022-04-07 14:45:00 · 64 阅读 · 0 评论 -
CC00033.hadoop——|Hadoop&Hue.V02|——|Hue.v02|编译配置.v02|
一、Hue编译安装### --- Hue编译安装~~~ Hue官方网站:https://gethue.com/~~~ HUE官方用户手册:https://docs.gethue.com/~~~ 官方安装文档:https://docs.gethue.com/administrator/installation/install/~~~ HUE下载...原创 2022-04-07 14:45:00 · 184 阅读 · 0 评论 -
CC00034.hadoop——|Hadoop&Hue.V03|——|Hue.v03|编译配置.v03|
一、启动 Hue 服务### --- 增加 hue 用户和用户组[root@linux122 hue]# groupadd hue[root@linux122 hue]# useradd -g hue hue### --- 在hue安装路径下执行[root@linux122 hue]# build/env/bin/supervisorstarting server ...原创 2022-04-07 14:46:00 · 57 阅读 · 0 评论 -
CC00035.hadoop——|Hadoop&Hue.V04|——|Hue.v04|案例实现.v01|
一、需求描述:针对销售数据,完成统计:### --- [数据仓库工具-Hive]~~~ [Hue案例之导入数据]~~~ [Hive案例实现part01]~~~ [Hive案例实现part02]~~~ [Hive案例实现part03]~~~ [Hive案例实现part04]~~~ [Hive案例实现part05]###...原创 2022-04-07 14:47:00 · 85 阅读 · 0 评论 -
CC00036.hadoop——|Hadoop&Hue.V05|——|Hue.v05|案例实现.v02|
一、实现:步骤一:创建表### --- 步骤一:创建表~~~ 将数据存放在ORC文件中~~~ # createtable.hqlhive (tuning)> drop database sale cascade;hive (tuning)> create database if not exists sale;create table...原创 2022-04-07 14:48:00 · 66 阅读 · 0 评论 -
CC00037.hadoop——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-07 14:48:00 · 55 阅读 · 0 评论 -
CC00038.hadoop——|Hadoop&Flume.V01|——|Flume.v01|Flume架构.v01|
一、Flume概述### --- [数据采集工具-Flume]~~~ [Flume简介]~~~ [Flume拓扑结构]~~~ [Flume体系架构]~~~ [Flume内部原理]### --- 概述(什么是、体系结构、拓扑结构、内部原理)### --- 安装配置### --- 应用(基础、高级)~~~ 无论数据来自什么企...原创 2022-04-07 14:49:00 · 60 阅读 · 0 评论 -
CC00039.hadoop——|Hadoop&Flume.V02|——|Flume.v02|Flume架构.v02|
一、Flume体系结构### --- Flume架构中的组件:~~~ # Agent本质上是一个 JVM 进程,~~~ 该JVM进程控制Event数据流从外部日志生产者那里传输到目的地(或者是下一个Agent)。~~~ 一个完整的Agent中包含了三个组件Source、Channel和Sink,Source是指数据的来源和方式,~~~ ...原创 2022-04-07 14:50:00 · 44 阅读 · 0 评论