大数据
文章平均质量分 95
hadoop、hive、flink、。。。
讲文明的喜羊羊拒绝pua
Java高级开发工程师
展开
-
大数据高级开发工程师——Spark学习笔记(10)
1、Checkpoint的基本介绍、如何使用2、SparkStreaming与SparkSQL整合3、SparkStreaming的容错:节点失败容错、数据丢失容错、Task运行慢容错4、优雅关闭5、SparkStreaming与Kafka整合:整合0-8、0-10,如何保证exactly-once及代码实现原创 2022-11-15 09:20:33 · 568 阅读 · 1 评论 -
大数据高级开发工程师——Spark学习笔记(9)
1、Spark Streaming简介2、Spark Streaming架构流程3、什么是DStream4、DStream算子操作5、使用SparkStreaming操作不同数据源6、SparkStreaming任务提交7、SparkStreaming的Transformation高级算子8、SparkStreaming的Output算子原创 2022-11-06 20:12:45 · 805 阅读 · 0 评论 -
大数据架构师——音乐数据中心平台离线数仓综合项目(四)
1、商户营收统计2、实时PVUV3、实时点播歌曲热度榜原创 2022-10-27 09:29:31 · 1355 阅读 · 0 评论 -
大数据架构师——音乐数据中心平台离线数仓综合项目(三)
1、业务需求:机器详细信息统计、日活跃用户统计2、模型设计3、数据处理流程4、使用Azkaban配置任务流,调度任务5、使用Superset进行数据可视化展示原创 2022-08-15 23:10:27 · 943 阅读 · 0 评论 -
大数据架构师——数据湖技术(二)
Spark与Iceberg整合HiveCatalog、HadoopCatalogSpark与Iceberg整合DDL操作Spark与Iceberg整合DQL操作Spark与Iceberg整合DML操作原创 2022-08-05 23:21:29 · 1030 阅读 · 0 评论 -
大数据架构师——音乐数据中心平台离线数仓综合项目(二)
数据仓库分层设计数据处理流程使用Azkaban配置任务流使用Superset数据可视化TW_SINGER_RSI_D歌手影响力日统计表和TW_SONG_RSI_D歌曲影响力日统计表。TO_CLIENT_SONG_PLAY_OPERATE_REQ_D客户端歌曲播放表。TO_SONG_BASEINFO_D歌曲基本信息日全量表。TW_SONG_FTUR_D歌曲特征日统计表。TO_SONG_INFO_D歌库歌曲表。在安装azkaban的节点。............原创 2022-07-25 08:52:41 · 1453 阅读 · 2 评论 -
大数据高级开发工程师——Spark学习笔记(8)
Spark的动态资源划分Spark调优原创 2022-07-23 13:46:56 · 1076 阅读 · 0 评论 -
大数据高级开发工程师——Spark学习笔记(7)
SparkSQL架构设计与实现Catalyst执行过程:Parser、Analyzer、Optimizer、Planner、代码生成与执行SparkSQL参数调优原创 2022-07-22 08:29:49 · 1517 阅读 · 0 评论 -
大数据高级开发工程师——Spark学习笔记(6)
SparkSQL概述SparkSQL的四大特性DataFrame概述DataFrame常用操作DataSet概述SparkSQL如何读取外部数据源SparkSQL自定义函数原创 2022-07-16 16:37:32 · 819 阅读 · 0 评论 -
大数据高级开发工程师——Spark学习笔记(5)
Spark读写HBaseSpark的序列化与反序列化Spark数据倾斜原理与现象分析Spark中数据倾斜的解决方案原创 2022-07-14 08:20:10 · 1242 阅读 · 3 评论 -
大数据高级开发工程师——Spark学习笔记(4)
Spark 的Shuffle过程Spark的任务调度Spark的内存管理Spark自定义RDD原创 2022-07-13 08:58:06 · 555 阅读 · 0 评论 -
大数据高级开发工程师——Spark学习笔记(3)
Spark编程案例RDD的依赖关系、血统、缓存RDD的checkpoint机制DAG有向无环图原创 2022-07-09 21:56:01 · 557 阅读 · 0 评论 -
大数据高级开发工程师——Spark学习笔记(2)
RDD基本介绍Spark中的算子RDD的创建方式常见算子介绍KV类型常见算子介绍原创 2022-07-08 23:00:55 · 749 阅读 · 0 评论 -
大数据架构师——数据湖技术(一)
什么是数据湖?大数据为什么需要数据湖?数据湖技术之IcebergIceberg概念及特点Iceberg数据存储格式Iceberg特点Iceberg数据类型Hive 与 Iceberg 整合原创 2022-07-07 09:32:13 · 4624 阅读 · 1 评论 -
大数据高级开发工程师——Spark学习笔记(1)
- Spark是一个快速(基于内存),通用、可扩展的计算引擎,采用==Scala语言==编写。- ==2009年==诞生于UC Berkeley(加州大学伯克利分校,CAL的AMP实验室),2010年开源,2013年6月进入Apach孵化器。- 同年由美国伯克利大学 AMP 实验室的 Spark 大数据处理系统多位创始人联合创立==Databricks==(属于 Spark 的商业化公司-业界称之为==数砖==-数据展现-砌墙-侧面应正其不是基石,只是数据计算)。...原创 2022-07-05 09:30:51 · 612 阅读 · 0 评论 -
大数据架构师——音乐数据中心平台离线数仓综合项目(一)
数据库与ER建模、数据仓库与维度建模、数据仓库的分层、音乐数据中心数仓综合项目原创 2022-06-27 09:21:39 · 1649 阅读 · 0 评论 -
大数据高级开发工程师——大数据相关工具之四 Superset
[Superset](https://airbnb.io/projects/superset/) 是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,其通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案。原创 2022-06-26 18:26:00 · 1268 阅读 · 0 评论 -
ClickHouse从入门到精通(四)
文章目录ClickHouse从入门到精通(四)ClickHouse 高级篇数据一致性【重点】0. 准备测试数据1. 手动 OPTIMIZE2. 通过 group by 去重3. 通过 FINAL 查询物化视图1. 概述物化视图与普通视图的区别优缺点基本语法创建物化视图的限制物化视图的数据更新2. 案例实操准备测试数据创建物化视图导入增量数据导入历史数据MaterializedMySQL 引擎1. 概述特点使用细则2. 案例实操MySQL 开启 binlog 和 GTID 模式准备MySQL表和数据开启 Cl原创 2022-05-07 07:29:02 · 918 阅读 · 0 评论 -
ClickHouse从入门到精通(三)
文章目录ClickHouse从入门到精通(三)ClickHouse 高级篇Explain 查看执行计划1. 基本语法2. 使用建表优化1. 数据类型时间字段类型空值存储类型2. 分区和索引3. 表参数4. 写入和删除优化5. 常见配置ClickHouse 语法优化规则0. 准备测试表1. count 优化2. 消除子查询重复字段3. 谓词下推4. 聚合计算外推5. 聚合函数消除6. 删除重复的 order by key7. 删除重复的 limit by key8. 删除重复的 using key9. 标量替原创 2022-04-26 00:00:16 · 758 阅读 · 0 评论 -
ClickHouse从入门到精通(二)
文章目录ClickHouse从入门到精通(二)ClickHouse 进阶篇SQL操作1. Insert2. Update 和 Delete3. 查询操作4. Alter 操作5. 导出数据副本1. 副本写入流程2. 配置步骤3. 案例演示集群1. 集群配置2. 配置一个默认集群分片集群1. 分片写入流程(3分片2副本共6个节点)2. 集群读取流程(3分片2副本共6个节点)3. 3分片2副本集群配置4. 配置三节点集群及副本ClickHouse从入门到精通(二)ClickHouse 进阶篇SQL操作原创 2022-04-23 01:02:09 · 3298 阅读 · 0 评论 -
ClickHouse从入门到精通(一)
ClickHouse从入门到精通ClickHouse 入门篇ClickHouse入门ClickHouse 是由俄罗斯的 Yandex 开源的一个用于联机分析 OLAP 的列式存储数据库管理系统,使用 C++ 语言编写,支持 SQL 实时查询的大型数据管理系统。由于 ClickHouse 在大型数据集查询处理的高效表现,从 2016 年开源以来,就吸引了全球的目光,甚至一度登上 github 的关注度头把交椅。OLAP:ClickHouse 的设计定位就是用于 OLAP 离线数据处理,相比于 OLT原创 2022-04-16 00:41:07 · 2288 阅读 · 0 评论 -
大数据高级开发工程师——Flink学习笔记(2)
文章目录Flink学习笔记Flink实操篇Flink 并行度 & Slot & Task1. 并行度2. 并行度的设置算子级别执行环境级别客户端级别系统级别3. 并行度操作DataStream 编程模型DataStream 编程模型Flink 的 DataSource 数据源1. 基于文件2. 基于 Socket3. 基于集合4. 自定义输入案例一:自定义单并行度数据源案例二:自定义多并行度数据源Flink 的 Sink 数据目标1. Flink 写数据到 redis 中DataStream原创 2022-04-02 09:11:17 · 673 阅读 · 0 评论 -
大数据高级开发工程师——Flink学习笔记(1)
文章目录Flink基础篇Flink简介1. 处理无界和有界数据2. 部署应用到任意地方3. 运行任意规模的应用4. 利用内存性能Flink的特点和应用场景1. Flink 的特点2. Flink 的应用场景Flink基本技术栈和架构1. Flink 基本技术栈2. Flink 基本架构Flink安装Flink基础篇Flink简介官网地址:https://flink.apache.org/Apache Flink® — Stateful Computations over Data Streams原创 2022-03-23 23:02:14 · 2892 阅读 · 0 评论 -
Scala总结
文章目录Scala总结Scala中的下划线使用总结方法转换为函数集合中的每一个元素获取元组 Tuple 中的元素模式匹配队列导包初始化变量Scala总结Scala中的下划线使用总结方法转换为函数scala> def m1(x: Int, y: Int) = x * ym1: (x: Int, y: Int)Intscala> val f1 = m1 _f1: (Int, Int) => Int = <function2>集合中的每一个元素scala>原创 2022-01-23 22:13:20 · 117 阅读 · 0 评论 -
Scala编程语言入门(3)
文章目录Scala编程语言入门Scala进阶trait特质1. 作为接口使用2. 定义具体方法3. 定义具体方法和抽象方法4. 定义具体字段和抽象字段5. 实例对象混入 trait模式匹配和样例类1. 匹配字符串2. 匹配类型3. 匹配数组4. 匹配集合5. 匹配元组6. 样例类7. 样例对象8. Option类型9. 偏函数异常处理1. 异常场景2. 捕获异常3. 抛出异常提取器泛型1. 定义一个泛型方法2. 定义一个泛型类3. 上下界协变、逆变、非变隐式转换和隐式参数1. 隐式转换2. 隐式参数3. 案原创 2022-01-23 21:55:59 · 542 阅读 · 0 评论 -
Scala编程语言入门(2)
文章目录Scala编程语言入门Scala进阶函数式编程1. 遍历 foreach2. 映射 map3. 扁平化映射 flatMap4. 过滤 filter5. 排序 sort6. 分组 groupBy7. 聚合 reduce8. 折叠 fold高阶函数1. 函数值作为参数2. 匿名函数3. 柯里化4. 闭包类1. 类的定义2. 类的构造器对象1. scala 中的 object2. scala 中的伴生对象3. scala 中 object 的 apply 方法4. scala 中 object 的 mai原创 2022-01-23 21:55:01 · 2011 阅读 · 0 评论 -
Scala编程语言入门(1)
文章目录Scala编程语言入门Scala简介搭建开发环境安装JDK安装 Scala SDK安装IDEA的scala插件scala的REPL交互式解释器Scala语法基础scala中声明变量scala中数据类型scala中的条件表达式scala中的块表达式循环1. for循环2. while循环方法和函数1. 方法2. 函数3. 方法和函数的区别4. 方法转换为函数数组、元组、映射数组1. 定长数组2. 变长数组3. 遍历数组4. 数组常用操作元组1. 定义元组2. 示例3. 访问元组映射Map1. 不可变M原创 2022-01-22 21:03:57 · 5828 阅读 · 0 评论 -
大数据高级开发工程师——工作流调度器Azkaban(2)
文章目录工作流调度器AzkabanAzkaban使用Flow 2.01. 入门案例 HelloWorld2. 单job有多个command3. 包含多个有依赖关系job的flow4. 自动失败重试5. 手动失败重试方案一方案二6. 操作HDFS7. MR任务8. Hive任务解决方案:指定executorFlow 2.0高级1. javaprocess 类型2. 条件工作流运行时参数预定于宏运行时参数混合预定义宏3. 定时执行4. 邮件告警注册邮箱邮件告警案例工作流调度器AzkabanAzkaban使用原创 2022-01-11 23:53:59 · 1019 阅读 · 0 评论 -
大数据高级开发工程师——工作流调度器Azkaban(1)
文章目录工作流调度器AzkabanAzkaban介绍为什么需要工作流调度系统工作流调度实现方式Azkaban简介Azkaban架构Azkaban基本架构Azkaban架构的三种运行模式1. solo server mode(单机模式)2. two server mode3. multiple executor modeAzkaban安装部署编译 azkaban1. 下载源码包2. 修改build.gradle3. 开始编译4. 获得安装包multiple executor模式安装1. 数据库准备3. 解压软原创 2022-01-04 23:53:48 · 2294 阅读 · 7 评论 -
大数据高级开发工程师——大数据相关工具之三 Maxwell
文章目录大数据相关工具Maxwell数据实时同步工具Maxwell 简介MySQL Binlog 介绍1. Binlog简介2. Binlog的日志格式Mysql 实时数据同步方案对比开启MySQL的BinlogMaxwell 安装部署Maxwell 实时采集案例大数据相关工具Maxwell数据实时同步工具Maxwell 简介Maxwell 是一个能实时读取 MySQL 二进制日志文件binlog,并生成 Json格式的消息,作为生产者发送给 Kafka、Kinesis、RabbitMQ、Redi原创 2022-01-03 19:20:05 · 9932 阅读 · 8 评论 -
大数据高级开发工程师——大数据相关工具之二 DataX
文章目录大数据相关工具DataX数据同步工具DataX 3.0架构设计DataX 3.0 插件体系DataX 3.0 核心架构1. 核心模块介绍2. DataX调度流程DataX 安装部署DataX 实战案例1. 从stream流读取数据并打印到控制台2. 从mysql表读取数据并打印到控制台3. 从mysql表读取增量数据并打印到控制台4. 使用datax实现mysql2mysql5. 使用datax实现将mysql数据导入到hdfs6. 使用datax实现将hdfs数据导入到mysql表中7. 使用da原创 2022-01-03 11:59:42 · 1887 阅读 · 0 评论 -
大数据高级开发工程师——大数据相关工具之一 Sqoop
文章目录数据导入导出工具Sqoop ETL工具Sqoop简介Sqoop1与Sqoop2架构对比Sqoop安装部署Sqoop的数据导入1. 列出所有数据库2. 准备表数据3. 导入数据库表数据到HDFS4. 导入到HDFS指定目录5. 导入到hdfs指定目录并指定字段之间的分隔符6. 导入关系表到HIVE7. 导入关系表到hive并自动创建hive表8. 将mysql表数据导入到hbase当中去9. 导入表数据子集10. sql语句查找导入hdfs11. 增量导入Sqoop的数据导出1. 将数据从HDFS把文原创 2022-01-02 20:34:35 · 2320 阅读 · 2 评论 -
大数据高级开发工程师——数据采集框架Flume(2)
文章目录数据采集框架FlumeFlume进阶Flume的负载均衡1. 开发flume配置文件2. 启动&测试flume综合案例之静态拦截器使用1. 案例场景2. 分析3. 配置文件开发4. 启动&测试flume综合案例之自定义拦截器使用1. 需求2. 代码实现拦截器3. 验证flume自定义source1. 需求2. 数据准备3. 代码实现source4. 验证flume自定义sink1. 需求2. 数据准备3. 代码实现sink4. 验证数据采集框架FlumeFlume进阶Flume原创 2021-12-30 10:24:52 · 900 阅读 · 1 评论 -
大数据高级开发工程师——数据采集框架Flume(1)
文章目录数据采集框架FlumeFlume基本介绍概述运行机制Flume采集系统结构图1. 简单结构2. 复杂结构Flume实战案例采集网络端口数据1. Flume的安装部署2. 开发配置文件3. 启动4. 使用 telnet 测试采集目录到HDFS1. 需求分析2. 开发配置文件3. 启动&测试采集文件到HDFS1. 需求分析2. 开发配置文件3. 启动&测试实现断点续传1. 需求分析2. 开发配置文件3. 启动&测试两个 agent 级联1. 需求分析2. node02安装flum原创 2021-12-26 21:07:20 · 1910 阅读 · 0 评论 -
大数据高级开发工程师——HBase学习笔记(3)
文章目录PhoenixPhoenix介绍什么是PhoenixPhoenix底层原理安装部署下载安装配置环境变量重启hbase集群验证是否成功Phoenix使用批处理方式命令行方式1. 表的映射JDBCPhoenix构建二级索引为什么需要用二级索引?全局索引和本地索引1. Global Indexing2. Local Indexing不可变索引和可变索引1. immutable index2. mutable index配置HBase支持Phoenix二级索引实战1. 在 phoenix 中创建表2. 导入原创 2021-12-26 15:10:42 · 968 阅读 · 0 评论 -
大数据高级开发工程师——HBase学习笔记(2)
文章目录大数据数据库之HBase大数据数据库之HBase原创 2021-12-19 23:18:24 · 1373 阅读 · 0 评论 -
大数据高级开发工程师——HBase学习笔记(1)
大数据数据库之HBaseHBase是什么HBase的概念HBase基于Google的BigTable论文,是建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。在需要实时读、写随机访问、超大规模数据集时,可以使用HBase。HBase的特点极易扩展,海量存储底层依赖HDFS,当磁盘空间不足的时候,只需要动态增加datanode节点就可以了可以通过增加服务器来对集群的存储进行扩容列式存储HBase表的数据是基于列族进行存储的,列族是在列的方向原创 2021-12-18 22:32:16 · 836 阅读 · 0 评论 -
大数据高级开发工程师——Hive学习笔记(3)
文章目录Hive提高篇Hive的使用Hive的常用函数1. 系统内置函数2. 数值计算取整函数: round向下取整函数: floor向上取整函数: ceil向上取整函数: ceiling取随机数函数: rand3. 日期函数UNIX时间戳转日期函数: from_unixtime日期转UNIX时间戳函数: unix_timestamp日期时间转日期函数: to_date日期转年函数: year日期转月函数: month日期转天函数: day日期转小时函数: hour日期转分钟函数: minute日期转秒函数原创 2021-12-09 00:25:39 · 295 阅读 · 0 评论 -
大数据高级开发工程师——Hive学习笔记(2)
文章目录Hive提高篇Hive的使用Hive的分桶表1. 分桶表的原理2. 分桶表的作用3. 案例演示Hive数据导入1. 直接向表中插入数据(强烈不推荐使用)2. 通过load加载数据(必须掌握)3. 通过查询加载数据(必须掌握)4. 查询语句中创建表并加载数据(as select)5. 创建表时指定location6. export导出与import 导入 hive表数据(内部表操作)Hive数据导出1. insert 导出2. Hive Shell 命令导出 (需要在linux终端执行)3 expor原创 2021-12-08 08:45:13 · 564 阅读 · 0 评论 -
大数据高级开发工程师——Hive学习笔记(1)
文章目录Hive基础篇环境准备MySQL安装部署Hive的安装部署1. 先决条件2. 下载安装包3. 解压4. 修改配置文件5. 修改日志配置文件6. 拷贝mysql驱动包7. 配置Hive的环境变量8. 初始化元数据库9. 验证安装10. 通过beeline连接代理服务器hiveserver2操作hive数据仓库概念数据仓库的基本概念数据仓库的主要特征数据仓库与数据库区别数据仓库分层架构Hive入门Hive简介Hive与数据库的区别###Hive的优缺点1. 优点2. 缺点Hive架构原理1. 用户接口2原创 2021-12-07 22:07:24 · 443 阅读 · 2 评论