自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 Hive:数据查询(10.压缩和存储)

文章目录1.Hadoop添加支持Snappy压缩1.1 查看1.2 jar包准备1.3 jar包安装1.4 编译源码2.Hadoop压缩配置2.1 MR支持的压缩编码2.2 压缩参数配置3.开启Map输出阶段压缩4.开启Reduce输出阶段压缩5.文件存储格式5.1 列式存储和行式存储5.2 基于行格式5.2.1 TextFile5.2.2 SequenceFile5.3 基于列格式5.3.1 RCfile5.3.2 ORCfile(Optimized Row Columnar)5.3.3 Parquet5

2020-06-21 18:09:30 373

原创 Hive:数据查询(9.sql练习)

文章目录1.练习11.1 建表1.2 思路11.3 思路22.练习22.1 建表2.2 思路13.练习33.1 建表3.2 需求4.练习44.1 数据4.2 建表4.3 需求1.练习11.1 建表数据:悟空 A 男大海 A 男宋宋 B 男凤姐 A 女婷姐 B 女婷婷 B 女需求:求出不同部门男女各多少人。结果如下A 2 1B 1 2

2020-06-21 17:05:06 296

原创 Flink:实时数据处理(END-10.Table API 和 Flink SQL)

文章目录

2020-06-21 16:04:25 525

原创 Hive:数据查询(8.排名函数及案例)

文章目录1.理论2.案例练习2.1 题目2.2 练习12.3 练习22.4 练习32.5 练习41.理论RANK():允许并列,并列后跳号ROW_NUMBER(): 连续,不并列,不跳号DENSE_RANK(): 连续,允许并列,并列不跳号!CUME_DIST(): 当前值以上的所有的值,占总数据集的比例!PERCENT_RANK(): rank()-1/总数据集-1NTILE(x): 将窗口中的数据平均分配到x个组中,返回当前数据的组号排名函数可以跟over(),但是不能在over(

2020-06-20 08:34:31 561

原创 Hive:数据查询(7.窗口函数及案例)

文章目录1.定义2.语法3.window clause4.案例4.1 建表4.2需求4.2.1 查询在2017年4月份购买过的顾客及总人数4.2.2 查询顾客的购买明细及月购买总额4.2.3 查询顾客的购买明细要将cost按照日期进行累加4.2.4 查询顾客的购买明细及顾客上次的购买时间4.2.5 查询顾客的购买明细及顾客下次的购买时间4.2.6 查询顾客的购买明细及顾客本月第一次购买的时间4.2.7查询顾客的购买明细及顾客本月最后一次购买的时间4.2.8 查询顾客的购买明细及顾客最近三次cost花费4.2

2020-06-18 20:25:40 292

原创 Hive:数据查询(6.Hive中的函数)

文章目录1.函数的分类2.函数的查询3.NVL3.1介绍3.2使用4.字符串拼接函数4.1 concat4.2 concat_ws5.行转列函数5.1含义5.2 collect_set5.3 collect_list6.判断句式6.1 if6.2 case-when7.列转行7.1 含义7.2 explode1.函数的分类UDF(user define function):用户定义的一进一出的函数。UDTF(user define table function): 用户定义的表生成函数! 一进多出!

2020-06-18 19:41:55 299

原创 Flink:实时数据处理(9.Flink CEP)

文章目录1.CEP定义2.CEP特点3.Pattern API3.1 个体模式(Individual Patterns)3.2 组合模式(Combining Patterns,也叫模式序列)3.2.1 严格近邻(Strict Contiguity)3.2.2 宽松近邻( Relaxed Contiguity )3.2.3 非确定性宽松近邻( Non-Deterministic Relaxed Contiguity )3.2.4 不希望出现某种近邻关系3.3 模式的检测3.4 匹配事件的提取3.5 超时事件的

2020-06-18 15:40:54 269

原创 Flink:实时数据处理(8.容错机制)

文章目录1.⼀致性检查点(checkpoint)2.从检查点恢复状态3.Flink 检查点算法(Chandy-Lamport算法)3.1 ⼀种简单的想法(同步的思想)3.2 Flink 的改进实现(异步的思想)3.3 检查点分界线(Checkpoint Barrier,检查点屏障)3.4 图示详解4.保存点(save points)1.⼀致性检查点(checkpoint)Flink 故障恢复机制的核⼼,就是应⽤状态的⼀致性检查点有状态流应⽤的⼀致性检查点,其实就是所有任务的状态,在某个时间点的⼀份

2020-06-18 14:24:45 211

原创 Flink:实时数据处理(7.状态编程)

文章目录一. 状态管理1. 状态类型1.1 算子状态(operator state)1.1.1 列表状态(List state)1.1.2 联合列表状态(Union List state)1.1.3 广播状态(Broadcast state)1.2 键控状态(keyed state)1.2.1 值状态(Value State)1.2.2 列表状态(List State)1.2.3 映射状态(Map State,字典状态,哈希表状态)1.2.4 聚合状态(Reducing State & Aggreg

2020-06-18 11:58:35 449 1

原创 Flink:实时数据处理(6.ProcessFunction:底层API)

文章目录1.概念2. KeyedProcessFunction2.1 案例:注册定时器和输出水位线2.2 TimerService and Timers2.3 案例:一秒钟温度连续上升报警3.ProcessFunction 案例:将温度小于32F的温度读数发送到侧输出流4.CoProcessFunction 案例:双流合并5.触发器5.1 处理时间触发器案例5.2 事件时间触发器-基于时间的双流Join案例6.处理迟到的元素 (Handling Late Data)6.1 抛弃迟到的元素6.2 重定向迟到元

2020-06-17 21:59:42 311

原创 Flink:实时数据处理(5.时间语义和水位线)

文章目录1.时间语义1.1 图示与解释1.2 设置事件时间2.水位线(Watermark)2.1 watermark概念2.2 watermark 的特点1.时间语义1.1 图示与解释Event Time:事件创建的时间Ingestion Time:数据进入Flink的时间Processing Time:执行操作算子的本地系统时间,与机器相关。机器时间在分布式系统中又叫做 “墙上时钟”1.2 设置事件时间val env = StreamExecutionEnvironment.getEx

2020-06-17 20:18:12 285

原创 Flink:实时数据处理(4.Window API)

文章目录1.window 概念2.window 类型2.1 时间窗口(Time Window)2.1.1 滚动时间窗口2.1.2 滑动时间窗口2.1.3 会话窗口2.2 计数窗口(Count Window)2.2.1 滚动计数窗口2.2.2 滑动计数窗口3.window API3.1 窗口分配器(window assigner)3.2 创建不同类型的窗口3.3 窗口函数(window function)3.3.1 案例:求窗口中最小温度值3.3.2 案例:使用增量聚合函数实现窗口温度平均值计算3.3.3 案

2020-06-16 21:41:33 173

原创 Flink:实时数据处理(3.Flink流处理API)

文章目录1.Enviroment(创建 Flink 程序执行环境)1.1 getExecutionEnvironment()1.2 createLocalEnvironment():创建本地执行环境1.3 createRemoteEnvironment():创建远程执行环境2.Source(读取输入流)2.1 从集合读取2.2 从文件读取2.3 从kafka读取2.4 自定义Source3.Transform(转换算子)3.1 基本转换算子3.1.1 Map3.1.2 Filter3.1.3 FlatMa

2020-06-16 19:45:18 594

原创 Hive:数据查询(5.Hive中的排序)

文章目录1.Order by2.Sort by3.Distribute by4.Cluster by5.本地模式1.Order byOrder by 代表全排序全排序: 对整个数据集进行排序! 要求只能有一个reduceTask!导入emp和dept表!select * from emp order by sal desc;select * from emp order by job,sal desc;2.Sort bysort by代表部分排序!部分排序: 设置多个reduceTas

2020-06-14 17:20:12 393

原创 Hive:数据查询(4.DML:数据操纵语言)

文章目录1.load2.insert3.location4.import5.insert导出6.export导出1.loadload data [local] inpath '数据路径' into table 表名 [partition]带local:从本地将数据put到hdfs上的表目录!不带local: 代表将hdfs上的数据,mv到hdfs上的表的目录!2.insertinsert导入数据会运行MR程序,在特殊的场景下,只能使用insert不能用load!例如:①分桶②希望向hiv

2020-06-14 00:54:10 113

原创 Hive:数据查询(3.DDL:数据定义语言)

文章目录1. DDL之库操作1.1 增:create1.2 删:drop1.3 改:ALTER1.4 查2.DDL之表操作2.1 创建2.1.1 管理表和外部表2.1.2 管理表和外部表的转换2.2 分区表2.2.1 作用2.2.2 注意2.2.3 创建2.2.3.1 建表2.2.3.2 put导入2.2.3.3 load2.2.4 删除分区2.2.5 多级分区表2.3 分桶表2.3.1 作用2.3.2 注意2.3.3 案例2.3.4 排序2.3.5 抽样查询2.4 基于现有表创建表2.5 删除2.6 查询

2020-06-13 17:02:59 154

原创 Flink:实时数据处理(2.Flink运行架构)

文章目录1.Flink 运⾏时的组件1.1 作业管理器(JobManager)(Master节点)1.2 任务管理器(TaskManager)(Slave节点)1.3 资源管理器(ResourceManager)1.4 分发器(Dispatcher)2.任务提交流程2.1 独立集群2.2 Yarn3.任务调度原理3.1 TaskManger与Slots3.2 程序和数据流(DataFlow)3.2.1 Flink程序组成3.2.2 图示解析3.3 执⾏图(ExecutionGraph)3.4 并⾏度(Par

2020-06-09 01:17:49 288

原创 Flink:实时数据处理(1.Flink概述)

文章目录1.Flink概念为什么选择flink?2.数据处理的演变2.1 传统数据处理架构2.1.1 事务处理2.1.2 分析处理(Hive):MySQL -> Sqoop -> Hive2.2 有状态的流式处理2.3 流处理的演变2.3.1 lambda 架构(批处理 + 流处理)2.3.2 Flink3.Flink 的主要特点3.1 事件驱动(Event-driven)3.2 基于流的世界观3.3 分层API3.4 其它特点4.Flink vs Spark Streaming4.1 数据模型

2020-06-08 23:55:03 525

原创 Hive:数据查询(2.Hive数据类型)

文章目录1.基本数据类型2.集合数据类型2.1 类型描述2.2 案例3.分隔符4.类型转换1.基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat

2020-06-08 00:29:35 619

原创 Hive:数据查询(1.Hive的介绍与安装)

文章目录一、Hive简介1、Hive是什么?2、Hive的特征3、注意事项4、Hive架构原理5、Hive和数据库比较5.1 查询语言5.2 数据存储位置5.3 数据更新5.4 索引5.5 执行5.6 执行延迟5.7 可扩展性5.8 数据规模6、以wordcount为例介绍hive的计算二、Hive的安装1、环境要求2、启动hive一、Hive简介1、Hive是什么? Hive是一种数据仓库软件,使用SQL来促进对分布式设备上存储的大体量数据集进行读、写和管理; SQL(结构化查询语言),使用SQL

2020-06-07 18:45:41 111

原创 HBase:NoSQL数据库(END-6.HBase的优化)

文章目录1.高可用(HA)2.预分区2.1意义2.2 实现2.2.1 实现一2.2.2 实现二2.2.3实现三2.2.4 API实现3.Rowkey的设计4.布隆过滤器5.内存优化6.基础优化6.1 允许在HDFS的文件中追加内容6.2 优化DataNode允许的最大文件打开数6.3 优化延迟高的数据操作的等待时间6.4 优化数据的写入效率6.5 设置RPC监听数量6.6 优化HStore文件大小6.7 优化HBase客户端缓存6.8 指定scan.next扫描HBase所获取的行数6.9 flush、co

2020-06-07 13:23:03 178

原创 HBase:NoSQL数据库(5.HBase的集成)

文章目录1.HBase和MR集成1.1 意义1.2 如何集成?2.官方案例4.自定义案例一4.1 需求4.2 注意事项1.HBase和MR集成1.1 意义hbase提供的API,只能做简单查询!无法进行复杂运算!hbase是一个NoSQL数据库,不支持SQL,没法像hive一样使用简单的sql进行分组,排序,统计等操作!hbase的数据是存储在Hdfs上,因此可以使用MapReduce对...

2020-06-07 12:51:35 107

原创 HBase:NoSQL数据库(4.常见API及实例演示)

文章目录1 加入依赖2 常见API2.1 Connection2.2 Admin2.3 NamespaceDescriptor2.4 HTableDescriptor2.5 TableName2.6 HColumnDescriptor2.7 Put2.8 工具类2.8.1 Bytes2.8.2 CellUtil2.9 Get2.10 Result2.11 Cell2.12 Scan2.13 Res...

2020-06-01 08:11:53 210

原创 HBase:NoSQL数据库(3.HBase Shell的使用)

文章目录1. HBase Shell操作1.1 库操作1.2 表操作1.3 数据操作2.Regionserver架构3.HBase的写流程4.读流程1. HBase Shell操作①命令直接回车结束,不要加 ; ,如果加了 ; ,需要使用两个单引号结尾退出②如果要支持上下方向键导航,需要配置xshell的终端设置③哪里不会就使用help ‘命令名’ 或 help ‘命令组名’④hb...

2020-06-01 01:40:39 172

原创 HBase:NoSQL数据库(2.安装)

文章目录1.环境要求2.修改配置2.1 编辑 hbase-env.sh2.2 编辑hbase-site.xml2.3 分发HBase到其他节点3.启动和停止3.1 单点启动3.2群起3.3 常见端口1.环境要求hbase基于hadoop的hdfs,要求必须已经安装了hadoop启动hdfs,确保有HADOOP_HOMEhbase依赖zk存储一些表的元数据,要求必须已经安装了zk!...

2020-06-01 00:46:32 123

原创 HBase:NoSQL数据库(1.概述)

文章目录1.NoSQL介绍1.1 特点:1.2 适用场景2.HBase 简介2.1 HBase 定义2.2 HBase 特点2.3 HBase 优点2.4 Hbase 缺点2.5 HBase 应用场景2.6 随机读写2.7 实时读写3.HBase数据模型3.1 HBase逻辑结构3.2 HBase的物理存储结构4. HBase基本架构5.hbase核心概念5.1 namespace: 库5.2 t...

2020-06-01 00:40:48 243

原创 Kafka(数据缓存监控)

文章目录一、Kafka的简介1.定义2.特点及应用3.消息队列3.1 传统消息队列3.2 点对点模式3.3 发布/订阅模式4.核心概念4.1 Broker4.2 Topic4.3 Partition4.4 Offset4.5 持久化4.6 副本机制4.7 Producer4.8 Consumer4.9 Consumer Group2.安装2.1环境的配置2.2 配置2.3启动和停止二、Kafka常...

2020-05-31 17:19:33 493

原创 Spark:实时数据微批处理(3.Spark Core 项目实战)

文章目录1.Top10 热门品类1.Top10 热门品类

2020-05-31 12:43:04 536 2

原创 Spark:实时数据微批处理(2.Spark Core:核心)

文章目录1.RDD 概述1.1 什么是 RDD?1.2 RDD 的 5 个主要属性(property)1.3 理解 RDD1.3.1 RDD 特点2.RDD 编程2.1 RDD 编程模型2.2 RDD 的创建2.2.1 从集合中创建 RDD1.RDD 概述1.1 什么是 RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数...

2020-05-29 01:19:33 353

原创 Spark:实时数据微批处理(1.Spark 基础)

文章目录1.Spark 概述1.1 Spark 介绍1.2 Spark 特点1.3 Spark 内置模块介绍2.Spark 运行模式2.1 Local 模式2.2 Spark 核心概念介绍2.2.1 Master2.2.2 Worker2.2.3 driver program(驱动程序)2.2.4 executor(执行器)2.2.5 RDDs(Resilient Distributed Data...

2020-05-28 14:36:17 1022

原创 Redis 小入门

文章目录1.Redis介绍1.1 互联网项目架构演变1.Redis介绍1.1 互联网项目架构演变随着访问量上升,大部分使用MySQL架构的网站在数据库上都开始出现性能问题,Web程序不能再仅仅专注在功能上,同时也在追求性能。开始使用缓存技术缓解数据库压力,优化数据库的结构和索引。刚开始时比较流行的是通过文件缓存来缓解数据库压力,但是当访问量继续增大,文件缓存中的数据不能在多台Web服务器之间共享,大量的小文件IO也带来了比较高的IO压力。在这种情况下,Memcache就成了一款非常有效的解决方案

2020-05-27 00:18:21 83

原创 Git小入门

文章目录1.Git简介1.1 是什么?1.2 能干吗?1.3 集中式版本管理2.Git的安装2.1 相关工具2.2 安装流程2.3 设置Git账户2.4 初始化3.常用Git命令3.1 新建文件并提交到本地库3.1.1 常用命令3.1.2 实验步骤3.2 将修改的文件提交到本地库3.3 忽略文件3.4 版本切换3.4.1 常用命令3.4.2 回退实操3.4.3 前进实操3.4.4 文件恢复3.4.5 删除操作3.4.6 比较文件4.Git的工作机制4.1 三区4.2 .git目录5.分支操作5.1 常用命令

2020-05-24 23:58:00 118

原创 Spark:实时数据微批处理(END-7.Spark 性能优化和故障处理)

文章目录1.Spark 性能优化1.1 常规性能调优1.1.1 最优资源配置1.1.2 RDD 优化1.Spark 性能优化1.1 常规性能调优1.1.1 最优资源配置Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单:/usr/opt/modules/spark/bin/spark-

2020-05-24 16:40:37 363

原创 Spark:实时数据微批处理(6.Spark内核解析)

文章目录1.Spark 内核概述1.1 Spark 核心组件回顾1.1.1 Cluster Manager(Master, ResourceManager)1.1.2 Worker(Worker, NodeManager)1.1.3 Driver1.1.4 Executor1.1.5 Application1.2 Spark 通用运行流程概述1.Spark 内核概述Spark 内核泛指 Spark 的核心运行机制包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、

2020-05-22 23:47:08 348

原创 Spark:实时数据微批处理(4.Spark sql及项目实战)

文章目录1.Spark SQL 概述1.1 什么是 Spark SQL?1.2 Spark SQL 的特点1.3 DataFrame介绍1.4 DataSet的介绍2.Spark SQL 编程2.1 SparkSession 介绍2.2 使用 DataFrame 进行编程2.2.1 通过 Spark 数据源创建DF2.2.2 通过 RDD 进行转换2.2.3 通过查询 Hive 表创建2.3 DataFrame 语法风格2.3.1 SQL 语法风格(主要)2.3.2 DSL 语法风格2.4 RDD 和 Da

2020-05-18 01:40:15 868

原创 Spark:实时数据微批处理(5.Spark Streaming及项目实战)

文章目录1.Spark Streaming 概述1.1 Spark Streaming是什么?1.2 Spark Streaming特点1.3 SparkStreaming 架构2.DStream 案例实操2.1 wordcount 案例2.2 RDD 队列案例2.3 自定义数据源案例2.4 Kafka 数据源案例2.4.1 接收器模式消费 kafka 数据2.4.2 直连模式消费 kafka1.Spark Streaming 概述1.1 Spark Streaming是什么?用于流式数据的处理,

2020-05-17 15:32:43 791

原创 Scala:函数式语言

文章目录1.Scala入门介绍1.1 概述1.2 特点2.变量和数据类型2.1 注释2.2 标识符的命名规范2.3 变量2.4 字符串输出2.5 键盘输入2.6 数据类型关系2.7 整数类型(Byte、Short、Int、Long)2.8 浮点类型(Float、Double)2.9 字符类型(Char)2.10 布尔类型:Boolean2.11 Unit类型、Null类型和Nothing类型2.1...

2020-05-03 23:16:02 520

原创 shell入门命令

文章目录1.shell概述2.shell解释器3.shell脚本入门3.1 脚本格式3.2 脚本的常用执行方式4.shell中的变量4.1 系统变量4.2 自定义变量4.3 特殊变量4.3.1 特殊变量:$n4.3.2 特殊变量:$#4.3.3 特殊变量:$ *、$@4.3.4 特殊变量:$?5.运算符6.条件判断7.流程控制7.1 if 判断7.2 case 语句7.3 for 循环7.4 wh...

2020-04-05 18:45:45 84

原创 Azkaban(任务调度)的安装部署

文章目录1.安装前准备2.安装Azkaban3.生成密钥对和证书4.配置文件4.1 web服务器配置4.2 执行服务器配置4.3 启动Executor服务器4.4 启动Web服务器1.安装前准备Azkaban下载地址: http://azkaban.github.io/downloads.html将Azkaban Web服务器、Azkaban executor执行服务器、Azkaban的s...

2020-03-18 01:32:18 89

原创 Azkaban(任务调度)概述

文章目录1.Azkaban介绍2.工作流调度系统3.Azkaban特点4.常见工作流调度系统5.Azkaban的架构1.Azkaban介绍Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的Dependencies 来设置依赖关系。Azkaban使用job配置...

2020-03-17 20:19:30 346

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除