学习大数据的基础知识小总结
大数据技术栈
首先,大数据是一个非常数据化的专业,要了解很多数据库、数据仓库、框架、各种服务及系统。那么小总结一下大概需要了解的知识点。
Hadoop
- HDFS分布式文件系统:NameNode、DataNode
- Yarn集群资源管理器:ResourceManager、NodeManager
- MapReduce批处理框架
数据仓库Hive
- hive表的分类:外部表、内部标、分区表、分桶表、视图、索引…
这个是以往作品里关于hive的基本应用 https://blog.csdn.net/weixin_45645794/article/details/106806965
混合处理框架Spark
- Spark Core:
- Spark SQL :DataSet、DataFrame
- Spark Streaming流处理框架:DStream
- MLlib机器学习库
- Graphx图形处理库
- 集群框架
- Master
- Cluster Manager
- Worker Node:Executor-Task、Cache
混合处理框架Flink
- Bath(DataSet API)
- Streaming(DataStream API)
- Table API & SQL
- 扩展库:
- Event Processing(CEP)
- Graphs:Gelly
- Machine Learning
流处理框架Storm
- 核心框架:Topology、Spout、Bolt、Stream
- 集群架构:Nimbus、Supervisors
面向列的数据库HBase
- 核心概念:Row Key(主键)、Column Family(列族)、Column Qualifter(列限定符)、Column(列)、Cell
- 集群架构:HMaster、Region Servers
分布式协调服务Zookeeper
- Znode:永久节点、临时节点、有序节点
- Watcher
- ACL:Permissions、Id、Schemes
- ZAB:崩溃恢复、消息广播
KafKa
- Messages And Batches(消息与批次)
- Topics And Partitions(主题与分区)
- Producers And Consumers(生产者与消费者)
- Brokers And Clusters
工具
- Azkaban分布式人物调度框架:
- 核心概念:Job、Flow(Flow1.0、Flow2.0)
- 架构:WebServer、ExecutorServer
- Flume数据收集工具:
- Event:数据传输的基本单元
- Source:数据源
- Channel:临时存储数据的管道
- Sink:数据处理单元
- Agent
- Sqoop数据迁移工具:用于在不同存储系统之间实现数据的导入和导出