大数据环境搭建文章汇总:
各组件安装文章汇总:
- 基于Centos7的SSH无密登录配置
- 基于Centos7的集群分发脚本xsync
- Maven的下载安装和使用
- Centos7安装和配置JDK1.8版本
- Centos7安装和配置Scala2.12版本
- Centos7安装MySQL5.7版本
- Apache Zookeeper的安装和配置
- Apache Hadoop 3.x 版本的安装和配置
- Apache Hadoop 3.x 版本的HA高可用配置和部署
- Apache Hive 3.x 版本的配置和部署
- Apache Hive 3.x 版本中集成Tez执行引擎
- 集群所有机器同步执行脚本
CentOS7安装CDH文章汇总:
- CentOS7安装CDH(一):CentOS7系统安装
- CentOS7安装CDH(二):CentOS7各个软件安装和启动
- CentOS7安装CDH(三):CDH中的问题和解决方法
- CentOS7安装CDH(四):CDH的版本选择和安装方式
- CentOS7安装CDH(五):CDH的安装和部署-CDH5.7.0
- CentOS7安装CDH(六):CDH的管理-CDH5.12
- CentOS7安装CDH(七):CDH集群Hadoop的HA配置
- CentOS7安装CDH(八):CDH中对服务和机器的添加与删除操作
- CentOS7安装CDH(九):CDH中安装Kafka
- CentOS7安装CDH(十):CDH中安装Spark2
- CentOS7安装CDH(十一):离线升级CDH版本
- CentOS7安装CDH(十二):YARN的资源调优
- CentOS7安装CDH(十三):CDH资源池配置
- CentOS7安装CDH(十四):CDH的优化
CentOS6安装大数据软件文章汇总:
- CentOS6安装大数据软件(一):Linux基础软件的安装
- CentOS6安装大数据软件(二):Hadoop分布式集群配置
- CentOS6安装大数据软件(三):Kafka集群的配置
- CentOS6安装大数据软件(四):HBase分布式集群的配置
- CentOS6安装大数据软件(五):Flume安装与配置
- CentOS6安装大数据软件(六):Hive安装和配置
- CentOS6安装大数据软件(七):Hue大数据可视化工具安装和配置
- CentOS6安装大数据软件(八):Spark集群安装和部署
- CentOS6安装大数据软件(九):大数据及相关软件启动等命令
Zookeeper文章汇总:
- Zookeeper(1):什么是Zookeeper
- Zookeeper(2):Zookeeper的安装和部署
- Zookeeper(3):Zookeeper的客户端命令行操作
- Zookeeper(4):Zookeeper的监听器原理
- Zookeeper(5):Zookeeper的客户端 API 操作
- Zookeeper(6):基于Zookeeper的服务器动态上下线监听案例
- Zookeeper(7):ZooKeeper的分布式锁案例
- Zookeeper(8):Zookeeper的其他知识点
Hadoop文章汇总:
- Hadoop(1):Hadoop概述
- Hadoop(2):Hadoop的安装和部署
- Hadoop(3):Hadoop安装和部署过程中的常见问题
- Hadoop(4):HDFS概述
- Hadoop(5):HDFS的Shell操作
- Hadoop(6):HDFS的API操作
- Hadoop(7):HDFS读写流程
- Hadoop(8):HDFS之NameNode和SecondaryNameNode
- Hadoop(9):HDFS之DataNode
- Hadoop(10):MapReduce概述
- Hadoop(11):Hadoop序列化
- Hadoop(12):MapReduce框架原理之InputFormat数据输入
- Hadoop(13):MapReduce框架原理之MapReduce工作流程
- Hadoop(14):MapReduce框架原理之Shuffle机制
- Hadoop(15):MapReduce框架原理之OutputFormat数据输出
- Hadoop(16):MapReduce框架原理之MapReduce内核源码解析
- Hadoop(17):MapReduce框架原理之Join应用
- Hadoop(18):MapReduce框架原理之数据清洗(ETL)
- Hadoop(19):MapReduce框架原理之MapReduce开发总结
- Hadoop(20):Hadoop数据压缩
- Hadoop(21):MapReduce开发过程中常见错误及解决方案
- Hadoop(22):Yarn概述
- Hadoop(23):Yarn调度器和调度算法
- Hadoop(24):Yarn的常用命令
- Hadoop(25):Yarn核心参数配置案例
- Hadoop(26):Yarn中容量调度器多队列提交
- Hadoop(27):Yarn中公平调度器多队列提交
- Hadoop(28):Yarn的Tool接口案例
- Hadoop(29):Hadoop调优之HDFS核心参数
- Hadoop(30):Hadoop调优之HDFS集群压测
- Hadoop(31):Hadoop调优之HDFS多目录
- Hadoop(32):Hadoop调优之HDFS集群扩容及缩容
- Hadoop(33):Hadoop调优之HDFS存储优化
- Hadoop(34):Hadoop调优之HDFS故障排除
- Hadoop(35):Hadoop调优之HDFS集群迁移
- Hadoop(36):Hadoop调优之MapReduce生产经验
- Hadoop(37):Hadoop调优之Yarn生产经验
- Hadoop(38):Hadoop调优之综合调优
Hive文章汇总:
- Hive(1):Hive的基本概念
- Hive(2):Hive的安装和部署
- Hive(3):Hive的数据类型
- Hive(4):Hive的DDL数据定义
- Hive(5):Hive的DML数据操作
- Hive(6):Hive查询之基本查询
Kafka文章汇总:
HBase文章汇总:
Spark文章汇总:
Flink文章汇总:
Flink基础知识点博文汇总:
- Flink(1):Flink概述
- Flink(2):为什么选择Flink
- Flink(3):Flink安装部署之Local本地模式
- Flink(4):Flink安装部署之Standalone独立集群模式
- Flink(5):Flink安装部署之Standalone-HA高可用集群模式
- Flink(6):Flink安装部署之Flink On Yarn模式
- Flink(7):Flink提交命令之参数总结
- Flink(8):Flink的API说明和pom文件汇总
- Flink(9):Flink的各种创建执行环境的方法
- Flink(10):Flink原理初探
- Flink(11):Flink之流批一体架构
- Flink(12):Flink之Source数据源
- Flink(13):Flink之Transformation算子(上)
- Flink(14):Flink之Transformation算子(下)
- Flink(15):Flink之Sink数据输出
- Flink(16):Flink之Connect Kafka API
- Flink(17):Flink之Connect API
- Flink(18):Flink之累加器
- Flink(19):Flink之广播变量
- Flink(20):Flink之分布式缓存
- Flink(21):Flink之Window
- Flink(22):Flink之Window案例一(基于时间的滚动和滑动窗口)
- Flink(23):Flink之Window案例二(基于数量的滚动和滑动窗口)
- Flink(24):Flink之Window案例三(会话窗口)
- Flink(25):Flink之WindowFunction的使用
- Flink(26):Flink中的时间语议
- Flink(27):Flink中的Watermark
- Flink(28):Flink之Watermark案例演示
- Flink(29):Flink中对迟到数据的处理(Allowed Lateness 和 SideOutput)
- Flink(30):Flink中的状态管理(上)
- Flink(31):Flink中的状态管理(下)
- Flink(32):Flink之Checkpoint
- Flink(33):Flink之状态恢复和重启策略
- Flink(34):Flink之Savepoint
- Flink(35):Flink之并行度详解
- Flink(36):Flink之TableAPI和FlinkSQL的整体介绍
- Flink(37):Flink之TableAPI和FlinkSQL的API调用(上)
- Flink(38):Flink之TableAPI和FlinkSQL的API调用(中)
- Flink(39):Flink之TableAPI和FlinkSQL的API调用(下)
- Flink(40):Flink之TableAPI和FlinkSQL的流处理中的特殊概念
- Flink(41):Flink之TableAPI和FlinkSQL的窗口(Windows)
- Flink(42):Flink之TableAPI和FlinkSQL中的函数(Functions)
- Flink(43):Flink之TableAPI和FlinkSQL中的案例准备
- Flink(44):Flink之TableAPI和FlinkSQL的案例一
- Flink(45):Flink之TableAPI和FlinkSQL的案例二
- Flink(46):Flink之TableAPI和FlinkSQL的案例三
- Flink(47):Flink之TableAPI和FlinkSQL的案例四
- Flink(48):Flink之TableAPI和FlinkSQL中的常用算子
- Flink(49):Flink之综合练习(一)
- Flink(50):Flink之综合练习(二)
- Flink(51):Flink高级特性之广播状态(BroadcastState)
- Flink(52):Flink高级特性之双流Join
- Flink(53):Flink高级特性之端到端精确一次消费(End-to-End Exactly-Once)
- Flink(54):Flink高级特性之异步IO(Async I/O)
- Flink(55):Flink高级特性之流式文件写入(Streaming File Sink)
- Flink(56):Flink高级特性之文件写入(File Sink)
- Flink(57):Flink高级特性之FlinkSQL整合Hive
- Flink(58):Flink之FlinkCDC(上)
- Flink(59):Flink之FlinkCDC(下)
- Flink(60):Flink中通用ModelUtil工具类
- Flink(61):Flink中通用KafkaUtil工具类
StreamX文章汇总:
- StreamX(1):StreamX概述
- StreamX(2):StreamX架构
- StreamX(3):StreamX的安装部署
- StreamX(4):部署 flink stream 应用
- StreamX(5):部署 flink sql 应用
Hudi文章汇总:
- 数据湖之Hudi(1):什么是数据湖
- 数据湖之Hudi(2):数据湖框架
- 数据湖之Hudi(3):Apache Hudi 基本介绍
- 数据湖之Hudi(4):Apache Hudi 快速发展
- 数据湖之Hudi(5):Apache Hudi 的编译
- 数据湖之Hudi(6):Hudi与Spark和HDFS的集成安装使用
- 数据湖之Hudi(7):使用docker进行Hudi的快速体验和使用
- 数据湖之Hudi(8):数据湖Hudi的数据管理
- 数据湖之Hudi(9):使用Spark向Hudi中插入数据
- 数据湖之Hudi(10):使用Spark查询Hudi中的数据
- 数据湖之Hudi(11):使用Spark更新Hudi中的数据
- 数据湖之Hudi(12):使用Spark对Hudi中的数据进行增量查询(Incremental query)
- 数据湖之Hudi(13):使用Spark删除Hudi中的数据
- 数据湖之Hudi(14):Apache Hudi 基本概念
- 数据湖之Hudi(15):Apache Hudi 中表的存储类型
- 数据湖之Hudi(16):Apache Hudi 中数据写操作流程
- 数据湖之Hudi(17):在云服务器上部署和调试Hudi的踩坑之旅
未完待续......